
Face à la pression concurrentielle croissante de Google et d’Anthropic, OpenAI lance un nouveau modèle d’IA, GPT-5.2, qui, selon lui, surpasse considérablement tous les modèles existants sur un large éventail de tâches.
Le nouveau modèle, publié moins d’un mois après le lancement par OpenAI de son prédécesseur GPT-5.1, s’est particulièrement bien comporté sur les tests de tâches professionnelles complexes dans une variété de « tâches de connaissances » allant du droit à la comptabilité et à la finance, ainsi que sur les évaluations impliquant le codage et le raisonnement numérique, selon les données publiées par OpenAI.
Fidji Simo, ancien PDG d’InstaCart et actuel PDG des applications chez OpenAI, a déclaré aux journalistes que ce modèle ne devait pas être considéré comme une réponse directe au modèle Gemini 3 Pro AI de Google publié le mois dernier. Avec cette version, Sam Altman, PDG d’OpenAI, a publié un « code rouge » et a retardé le déploiement de plusieurs initiatives afin de concentrer davantage de personnel et de ressources informatiques sur l’amélioration du produit principal, ChatGPT.
« Je pense que[Code Red]aide à la sortie de ce modèle, mais ce n’est pas spécifiquement la raison pour laquelle il sort cette semaine. Il est en développement depuis un certain temps », a-t-elle déclaré.
Elle a déclaré que l’entreprise construisait GPT-5.2 « depuis plusieurs mois ». « Ces modèles ne sont pas réalisés en une semaine seulement ; ils sont le résultat de beaucoup de travail », a-t-elle déclaré. Selon un article paru dans The Information, le modèle était connu en interne sous le nom de code « Garlic ». La veille de la sortie du modèle, Altman a annoncé sa sortie imminente en publiant un clip vidéo sur les réseaux sociaux le montrant en train de préparer un plat avec beaucoup d’ail.
Les dirigeants d’OpenAI ont déclaré que le modèle était entre les mains d’un « client alpha » pour aider à tester les performances depuis « plusieurs semaines ». Cette période signifie que le modèle a été achevé avant la déclaration « Code Red » d’Altman.
En plus de Shopify et Zoom, ces testeurs comprenaient la startup juridique d’IA Harvey, l’application de prise de notes Notion et la société de logiciels de gestion de fichiers Box.
OpenAI a déclaré que ces clients ont constaté que GPT-5.2 présentait des capacités « de pointe » pour effectuer des tâches à l’aide d’autres outils logiciels, et était également excellent pour écrire et déboguer du code.
Le codage est devenu l’un des cas d’utilisation les plus compétitifs pour le déploiement de modèles d’IA au sein de l’entreprise. Bien qu’OpenAI ait eu une avance précoce dans ce domaine, le modèle Claude d’Anthropic a été particulièrement populaire parmi les entreprises, dépassant de loin la part de marché d’OpenAI. Il ne fait aucun doute qu’OpenAI veut convaincre les clients de revenir à son modèle lors du codage avec GPT-5.2.
Simo a déclaré que « Code Red » aide OpenAI à se concentrer sur l’amélioration de ChatGPT. « Code Red est vraiment un signal à l’entreprise qu’elle souhaite concentrer ses ressources sur certains domaines, et c’est un moyen de vraiment définir ses priorités et de définir ce qui peut être dépriorisé », a-t-elle déclaré. « En conséquence, nous disposons désormais de davantage de ressources axées sur ChatGPT en général. »
La société a également déclaré que le nouveau modèle est meilleur que le modèle précédent de la société en ce qu’il fournit des « réponses sécurisées ». La société définit cela comme le fait de fournir des réponses utiles aux utilisateurs sans faire de déclarations qui pourraient contribuer ou exacerber une crise de santé mentale.
« En ce qui concerne la sécurité, comme vous pouvez le constater à travers les critères de référence, nous constatons des améliorations dans presque tous les aspects de la sécurité, y compris l’automutilation, les différents types de santé mentale et la dépendance émotionnelle », a déclaré Simo. « Nous sommes très fiers du travail que nous faisons ici. C’est une priorité absolue pour nous et nous ne publions des modèles que lorsque nous sommes sûrs que les protocoles de sécurité sont suivis et que nous sommes fiers de notre travail. »
La sortie du nouveau modèle intervient le jour même où une nouvelle poursuite a été déposée contre ChatGPT, alléguant que ses interactions avec des utilisateurs psychologiquement handicapés ont contribué à un meurtre-suicide dans le Connecticut. La société fait également face à plusieurs autres poursuites alléguant que ChatGPT a contribué aux suicides de personnes. La société a qualifié l’affaire de meurtre-suicide dans le Connecticut d' »incroyablement déchirante » et a déclaré qu’elle améliorait continuellement la « formation de ChatGPT pour reconnaître et répondre aux signes de détresse mentale ou émotionnelle, désamorcer les conversations et orienter les gens vers de l’aide dans le monde réel ».
GPT-5.2 a montré des améliorations significatives des performances dans plusieurs tests de référence intéressant les entreprises clientes. Tel que mesuré par le benchmark GDPval d’OpenAI, il a égalé ou dépassé les performances des experts humains sur un large éventail de tâches spécialisées difficiles dans 70,9 % du temps. En comparaison, GPT-5, le modèle lancé par OpenAI en août, n’en compte que 38,8 %. Claude Opus 4.5 d’Anthropic est à 59,6%. Le Gemini 3 Pro de Google en avait 53,3 %.
Dans le benchmark de développement logiciel SWE-Bench Pro, GPT-5.2 a reçu un score de 55,6 %. C’est près de 5 % de mieux que la génération précédente GPT-5.1 et plus de 12 % de mieux que Gemini 3 Pro.
Aidan Clark, vice-président de la recherche (formation) d’OpenAI, a refusé de répondre aux questions sur les méthodes de formation spécifiques utilisées pour améliorer les performances de GPT-5.2, mais a déclaré que la société avait apporté des améliorations à tous les niveaux, y compris la pré-formation, la première étape dans la création d’un modèle d’IA.
Lorsque Google a publié son modèle Gemini 3 Pro le mois dernier, les chercheurs de l’entreprise ont également déclaré que l’entreprise avait apporté des améliorations avant et après la formation. Cela a surpris certaines parties prenantes qui pensaient que les entreprises d’IA avaient pratiquement épuisé leur capacité à tirer des améliorations significatives de la phase de pré-formation de la construction de modèles, ce qui a conduit à spéculer selon laquelle OpenAI aurait pu être pris au dépourvu par les avancées de Google dans ce domaine.

