Openai a lancé lundi une nouvelle famille de modèles appelée GPT-4.1. Oui, «4.1» – comme si la nomenclature de l’entreprise était déjà suffisamment confuse.
Il y a GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano, qui Openai dit «Excel» au codage et à l’instruction complète. Disponibles via l’API d’Openai mais pas le chatppt, les modèles multimodaux ont une fenêtre de contexte de 1 million, ce qui signifie qu’ils peuvent prendre environ 750 000 mots en une seule fois (longtemps que «guerre et paix»).
GPT-4.1 en tant que concurrents Openai comme Google et Anthropic Ratchet Up Efforts pour construire des modèles de programmation sophistiqués. Gemini 2.5 Pro récemment publié de Google, qui a également une fenêtre de contexte de 1 million, se classe très bien sur des repères de codage populaires. Il en va de même pour Anthropic’s Claude 3.7 Sonnet et la startup chinoise de l’IA Deepseek V3 de Deepseek.
C’est l’objectif de nombreux géants de la technologie, inclus, de former des modèles de codage AI capables d’effectuer des tâches d’ingénierie logicielle complexes. La grande ambition d’Openai est de créer un «ingénieur logiciel agentique», comme l’a dit le directeur financier Sarah Friar lors d’un sommet technologique à Londres le mois dernier. La société dessert ses futurs modèles pour programmer les applications ENDRE de bout en bout, de gérer des aspects tels que l’assurance qualité, les tests de bogues et la rédaction de la documentation.
GPT-4.1 est un pas dans cette direction.
«Nous avons optimisé GPT-4.1 pour une utilisation réelle en fonction des commentaires directs pour améliorer les domaines qui se soucient le plus des développeurs: le codage de la fronende, la réalisation de moins de modifications étrangères, en suivant les formats liables, adhérant à la structure de la réponse et à la commande, composant l’utilisation des outils, et plus encore», a déclaré à TechCrunch Spokeson via le courrier électronique. «Ces improvisions permettent aux développeurs de construire qui sont considérablement meilleurs dans les tâches d’ingénierie logicielle réelles.
OpenAI affirme que le modèle complet GPT-4.1 surpasse ses modèles GPT-4O et GPT-4O sur les repères de codage, y compris SWE-Bench. Le GPT-4.1 Mini et Nano seraient plus efficaces et plus rapides au prix d’une certaine rasratie, avec Openai disant que GPT-4.1 Nano est son modèle le plus rapide et le moins cher de tous les temps.
GPT-4.1 coûte 2 $ par million de jetons d’entrée et 8 $ par million de jetons de production. GPT-4.1 Mini est de 0,40 $ / million de jetons d’entrée et de 1,60 $ / million de jetons de sortie, et le nano GPT-4.1 est de 0,10 $ / million de jetons d’entrée et de 0,40 $ / million de jetons de sortie.
Selon les tests internes d’OpenAI, le GPT-4.1, qui peut générer plus de jetons à la fois que GPT-4O (32,768 contre 16,384), a obtenu entre 52% et 54,6% sur SWE-Bench vérifié, un sous-ensemble de banc SWE-validé humain. (Openai a noté dans un article de blog que les seuls solutions à Swe-Bench Verified Veride Problèmes ne pouvaient pas fonctionner sur son infrastructure, d’où la rage des scores.) Ces chiffres sont légèrement sous les scores rapportés par Google et anthropic pour Gemini 2.5 Pro (63,8%) et Claude 3.7 Sonnet (62,3%) respectivement, sur le même bancmame.
Dans une évaluation distincte, OpenAI a sondé GPT-4.1 à l’aide de vidéo-mame, qui est conçue pour mesurer la capacité d’un modèle à «comprendre» le contenu dans les vidéos. GPT-4.1 a atteint une précision de 72% sur la catégorie vidéo «Long, pas de sous-titres», affirme Openai.
Bien que GPT-4.1 score assez bien sur les références et possède une «coupure de connaissances» plus récente, ce qui lui donne un meilleur cadre de référence pour les événements actuels (jusqu’en juin 2024), il est important de garder à l’esprit celui des meilleurs modèles aujourd’hui. Cela ne ferait pas trébucher des experts. Par exemple, de nombreuses études ont montré que les modèles générateurs de code ne parviennent souvent pas à corriger et même introduisent des vulnérabilité et des bogues de sécurité.
Openai reconnaît également que GPT-4.1 devient moins fiable (c’est-à-dire, plus probable de faire des erreurs) plus il doit faire face à des jetons d’entrée. Sur l’un des propres tests de l’entreprise, OpenAI-MRCR, la précision du modèle est passée d’environ 84% avec 8 000 jetons à 50% avec 1 million de jetons. Le GPT-4.1 a également été confondu pour être plus «littéral» que GPT-4O, dit que la société, ne censée pas plus spécifique, invite explicite.

