OpenAI lance GPT-5.4 avec les versions Pro et Thinking

Jeudi, OpenAI a publié GPT-5.4, un nouveau modèle de base présenté comme « notre modèle frontière le plus performant et le plus efficace pour le travail professionnel ». En plus de la version standard, GPT-5.4 est également disponible en modèle de raisonnement (GPT-5.4 Thinking) ou optimisé pour des performances élevées (GPT-5.4 Pro).

La version API du modèle sera disponible avec des fenêtres contextuelles pouvant atteindre 1 million de jetons, de loin la plus grande fenêtre contextuelle disponible chez OpenAI.

OpenAI a également souligné l’amélioration de l’efficacité des jetons, affirmant que GPT-5.4 était capable de résoudre les mêmes problèmes avec beaucoup moins de jetons que son prédécesseur.

Le nouveau modèle est livré avec des résultats de référence considérablement améliorés, notamment des scores records dans les tests d’utilisation de l’ordinateur OSWorld-Verified et WebArena Verified. Le nouveau modèle a également obtenu un score record de 83 % au test GDPval d’OpenAI pour les tâches de travail de connaissances.

GPT-5.4 a également pris la tête du benchmark APEX-Agents de Mercor, conçu pour tester les compétences professionnelles en droit et en finance, selon une déclaration du PDG de Mercor, Brendan Foody.

« (GPT-5.4) excelle dans la création de livrables à long terme tels que des présentations de diapositives, des modèles financiers et des analyses juridiques », a déclaré Foody dans le communiqué, « offrant des performances optimales tout en fonctionnant plus rapidement et à un coût inférieur à celui des modèles frontières concurrents ».

GPT-5.4 poursuit les efforts de l’entreprise pour limiter les hallucinations et les erreurs factuelles. OpenAI a déclaré que le nouveau modèle était 33 % moins susceptible de commettre des erreurs dans les réclamations individuelles par rapport à GPT 5.2, et que les réponses globales étaient 18 % moins susceptibles de contenir des erreurs.

Événement Techcrunch

San Francisco, Californie
|
13-15 octobre 2026

Dans le cadre du lancement, OpenAI a retravaillé la façon dont la version API de GPT-5.4 gère les appels d’outils, en introduisant un nouveau système appelé Tool Search. Auparavant, les invites du système présentaient les définitions de tous les outils disponibles lors de l’appel du modèle – un processus qui pouvait consommer beaucoup de jetons à mesure que le nombre d’outils disponibles augmentait. Le nouveau système permet aux modèles de rechercher des définitions d’outils selon leurs besoins, ce qui entraîne des requêtes plus rapides et moins coûteuses dans les systèmes disposant de nombreux outils disponibles.

OpenAI a également inclus une nouvelle évaluation de sécurité pour tester la chaîne de pensée de ses modèles, les commentaires en cours donnés par les modèles pour montrer le processus de réflexion à travers des tâches en plusieurs étapes. Les chercheurs en sécurité de l’IA craignent depuis longtemps que les modèles de raisonnement puissent déformer leur chaîne de pensée, et les tests montrent que cela peut se produire dans de bonnes circonstances.

La nouvelle évaluation d’OpenAI montre que la déception est moins susceptible de se produire dans la version Thinking de GPT-5.4, « ce qui suggère que le modèle n’a pas la capacité de cacher son raisonnement et que la surveillance CoT reste un outil de sécurité efficace ».

Source link

What's Hot

Citi, Ford et Experian partagent leur stratégie d’expansion des agents IA

La dernière querelle d’Anthropic avec l’administrateur Trump pourrait en fait l’aider, suggèrent les données de ventes

Apple prévoit de modifier sa fonctionnalité de confidentialité Masquer mon e-mail, ce qui pourrait la rendre moins efficace

OpenAI lance GPT-5.4 avec les versions Pro et Thinking

La dernière querelle d’Anthropic avec l’administrateur Trump pourrait en fait l’aider, suggèrent les données de ventes

Apple prévoit de modifier sa fonctionnalité de confidentialité Masquer mon e-mail, ce qui pourrait la rendre moins efficace

La valorisation de SpaceX grimpe à 2,6 milliards de dollars et dépasse brièvement Amazon

Qualcomm veut être la puce à l’intérieur de tout ce qui remplace votre smartphone, et vient d’annoncer deux produits à cette fin.

La dernière fintech de Robinhood supprime des emplois et supprime 300 postes

La dernière fintech de Robinhood supprime des emplois et supprime 300 postes

Salesforce acquiert Fin pour 3,6 milliards de dollars afin d’étendre son produit d’agent IA

Top Insights

Citi, Ford et Experian partagent leur stratégie d’expansion des agents IA

La dernière querelle d’Anthropic avec l’administrateur Trump pourrait en fait l’aider, suggèrent les données de ventes

Apple prévoit de modifier sa fonctionnalité de confidentialité Masquer mon e-mail, ce qui pourrait la rendre moins efficace

What's Hot

OpenAI lance GPT-5.4 avec les versions Pro et Thinking

Related Posts

Subscribe to Updates