Jeudi, OpenAI a publié GPT-5.4, un nouveau modèle de base présenté comme « notre modèle frontière le plus performant et le plus efficace pour le travail professionnel ». En plus de la version standard, GPT-5.4 est également disponible en modèle de raisonnement (GPT-5.4 Thinking) ou optimisé pour des performances élevées (GPT-5.4 Pro).
La version API du modèle sera disponible avec des fenêtres contextuelles pouvant atteindre 1 million de jetons, de loin la plus grande fenêtre contextuelle disponible chez OpenAI.
OpenAI a également souligné l’amélioration de l’efficacité des jetons, affirmant que GPT-5.4 était capable de résoudre les mêmes problèmes avec beaucoup moins de jetons que son prédécesseur.
Le nouveau modèle est livré avec des résultats de référence considérablement améliorés, notamment des scores records dans les tests d’utilisation de l’ordinateur OSWorld-Verified et WebArena Verified. Le nouveau modèle a également obtenu un score record de 83 % au test GDPval d’OpenAI pour les tâches de travail de connaissances.
GPT-5.4 a également pris la tête du benchmark APEX-Agents de Mercor, conçu pour tester les compétences professionnelles en droit et en finance, selon une déclaration du PDG de Mercor, Brendan Foody.
« (GPT-5.4) excelle dans la création de livrables à long terme tels que des présentations de diapositives, des modèles financiers et des analyses juridiques », a déclaré Foody dans le communiqué, « offrant des performances optimales tout en fonctionnant plus rapidement et à un coût inférieur à celui des modèles frontières concurrents ».
GPT-5.4 poursuit les efforts de l’entreprise pour limiter les hallucinations et les erreurs factuelles. OpenAI a déclaré que le nouveau modèle était 33 % moins susceptible de commettre des erreurs dans les réclamations individuelles par rapport à GPT 5.2, et que les réponses globales étaient 18 % moins susceptibles de contenir des erreurs.
Événement Techcrunch
San Francisco, Californie
|
13-15 octobre 2026
Dans le cadre du lancement, OpenAI a retravaillé la façon dont la version API de GPT-5.4 gère les appels d’outils, en introduisant un nouveau système appelé Tool Search. Auparavant, les invites du système présentaient les définitions de tous les outils disponibles lors de l’appel du modèle – un processus qui pouvait consommer beaucoup de jetons à mesure que le nombre d’outils disponibles augmentait. Le nouveau système permet aux modèles de rechercher des définitions d’outils selon leurs besoins, ce qui entraîne des requêtes plus rapides et moins coûteuses dans les systèmes disposant de nombreux outils disponibles.
OpenAI a également inclus une nouvelle évaluation de sécurité pour tester la chaîne de pensée de ses modèles, les commentaires en cours donnés par les modèles pour montrer le processus de réflexion à travers des tâches en plusieurs étapes. Les chercheurs en sécurité de l’IA craignent depuis longtemps que les modèles de raisonnement puissent déformer leur chaîne de pensée, et les tests montrent que cela peut se produire dans de bonnes circonstances.
La nouvelle évaluation d’OpenAI montre que la déception est moins susceptible de se produire dans la version Thinking de GPT-5.4, « ce qui suggère que le modèle n’a pas la capacité de cacher son raisonnement et que la surveillance CoT reste un outil de sécurité efficace ».

