Mardi, lors d’un livestream, le PDG d’Openai, Sam Altman, a annoncé la première mise à niveau majeure des capacités de génération d’images de Chatgpt en plus d’un an.
Chatgpt peut désormais tirer parti du modèle GPT-4O de l’entreprise pour créer et modifier nativement les images et les photos. GPT-4O a longtemps sous-tendu la plate-forme Chatbot à percuté AI, mais l’unité maintenant, le modèle a pu générer et modifier uniquement des images de texte.
Altman a déclaré que la génération d’images native de GPT-4O est en direct aujourd’hui à Chatgpt et Sora, le produit de génération vidéo d’IA d’Openai, pour les abonnés au plan professionnel de 200 $ par mois de la société. Openai affirme que la fonctionnalité se déroule bientôt sur des utilisateurs plus et gratuits de Chatgpt, ainsi que des développeurs utilisant le service API de l’entreprise.
GPT-4O avec la sortie de l’image «pense» un peu plus longtemps que le modèle de génération d’image qu’il remplace efficacement, Dall-E 3, pour faire ce que Openai décrit comme des images plus accumulées et détachées. GPT-4O peut modifier des images existantes, y compris des images avec des personnes qui les transforment ou les détails de la détérioration de la détérioration comme les objets de premier plan et d’arrière-plan.
Pour alimenter la nouvelle fonctionnalité, Openai a déclaré au Wall Street Journal qu’il avait formé le GPT-4O sur les «données publiquement avaïbles», ainsi que les données propriétaires de ses partenariats avec des sociétés comme ShotterStock.
De nombreux fournisseurs d’IA génératifs voient les données de formation comme un avantage concurrentiel, ils les conservent donc et toute information qui y est liée près du coffre. Mais les détails des données de formation sont également une source potentielle de poursuites liées à la propriété intellectuelle, un autre dissuasif pour les entreprises pour révéler beaucoup.
« Nous respectons les droits des artistes en ce qui concerne la façon dont nous faisons la production, et nous avons des politiques en place qui, à partir d’images générales qui imitent directement, le travail des artistes vivants », a déclaré Brad Lightcap, directeur de l’exploitation d’Openai, dans une strature à la revue.
OpenAI propose un formulaire de désactivation qui permet aux créateurs de demander que leurs œuvres soient supprimées de ses ensembles de données de formation. La société affirme également qu’elle a respecté les demandes pour interdire ses robots à crampons Web de la collecte de données de formation, incluait des images, à partir de sites Web.
La fonction de génération d’images améliorée de ChatGPT suit les talons de la sortie d’image native expérimentale de Google pour Gemini 2.0 Flash, l’un des modèles phares de l’entreprise. La caractéristique puissante est devenue virale sur les réseaux sociaux – mais pas l’exigence pour les meilleures raisons. Le composant d’image de Gemini 2.0 Flash s’est avéré avoir des garde-corps, permettant aux gens de retirer les filigranes et de créer des images déformant des caractères protégés par le droit d’auteur.
Cet article a été mis à jour à 12 h PT pour inclure le strement d’Openai au journal Wall Street autour des données de formation de GPT-4O.