L’IA a déjà un impact sismique sur la façon dont les logiciels sont écrits, une grande partie du gros travail de programmation étant désormais effectuée par des essaims d’agents et de sous-agents. Mais à mesure que les développeurs expérimentent de nouvelles interfaces et de nouveaux facteurs de forme pour la collaboration homme-IA, il devient difficile, même pour les laboratoires d’IA les plus avancés, de suivre le rythme.
La tendance actuelle est au développement de logiciels agentiques – des systèmes dans lesquels les agents d’IA peuvent travailler de manière indépendante sur des tâches de codage – incarnés par les applications Claude Code et Cowork. Entre-temps, OpenAI a progressivement développé son outil Codex, lancé en tant qu’outil de ligne de commande en avril dernier et étendu à une interface Web un mois plus tard.
Aujourd’hui, OpenAI franchit une étape majeure vers son rattrapage. Lundi, la société a lancé une nouvelle application macOS pour Codex, intégrant de nombreuses pratiques d’agent devenues populaires au cours de l’année écoulée. La nouvelle application est conçue pour fonctionner avec plusieurs agents en parallèle, intégrant les compétences des agents et d’autres flux de travail de pointe. Le lancement intervient également moins de deux mois après le lancement de GPT-5.2-Codex, le modèle de codage le plus puissant d’OpenAI, qui, espère la société, suffira à séduire les utilisateurs de Claude Code.
« Si vous voulez vraiment effectuer un travail sophistiqué sur quelque chose de complexe, le modèle 5.2 est de loin le modèle le plus puissant », a déclaré le PDG Sam Altman aux journalistes lors d’un appel à la presse. « Cependant, il est plus difficile à utiliser, donc en prenant ce niveau de capacité de modèle et en le plaçant dans une interface plus flexible, nous pensons que cela va avoir beaucoup d’importance. »
Même si la confiance d’Altman dans GPT-5.2 est compréhensible, les tests de codage racontent une histoire plus compliquée. GPT-5.2 occupe la première place sur TerminalBench (un test mesurant dans quelle mesure l’IA gère les tâches de programmation en ligne de commande), du moins au moment de la publication. Mais les agents de Gemini 3 et Claude Opus ont enregistré des scores à peu près équivalents – inférieurs, mais dans la marge d’erreur du benchmark. Les résultats de SWE-bench, une autre référence de codage qui teste la capacité de l’IA à corriger les bogues logiciels du monde réel, sont similaires, ne montrant aucun avantage clair pour GPT-5.2. Cependant, les cas d’utilisation agentiques ont été difficiles à évaluer efficacement, et les modèles de pointe peuvent varier considérablement en termes d’expérience utilisateur.
L’application Codex est également dotée d’une gamme de nouvelles fonctionnalités qui, selon OpenAI, l’aideront à atteindre la parité ou, dans certains cas, à dépasser les différentes applications Claude. L’application Codex permettra d’exécuter des automatisations en arrière-plan selon un calendrier automatique, les résultats étant placés dans une file d’attente pour être examinés au retour de l’utilisateur. Les utilisateurs peuvent également sélectionner différentes personnalités pour l’agent – de pragmatique à empathique – en fonction de leur style de travail.
Mais pour l’entreprise, le principal argument de vente est la rapidité de développement rendue possible par l’IA. « Vous pouvez l’utiliser à partir d’une feuille de papier vierge, toute neuve, pour créer un logiciel vraiment très sophistiqué en quelques heures », a déclaré Altman. « Aussi vite que je peux saisir de nouvelles idées, c’est la limite de ce qui peut être construit. »
Événement Techcrunch
Boston, Massachusetts
|
23 juin 2026
