Vendredi dernier, OpenAI a présenté un nouveau système de codage appelé Codex, conçu pour effectuer des tâches de programmation complexes des commandes en langage naturel. Codex entre en ouverture dans une nouvelle cohorte d’outils de codage agentiques qui commencent à peine à prendre forme.
Du copilote précoce de Github aux outils contemporains comme le curseur et la planche à voile, la plupart des assistants de codage d’IA fonctionnent comme une forme exceptionnellement intelligente de saisie automatique. Les outils vivent généralement dans un environnement de développement intégré et les utilisateurs interagissent directement avec le code général AI. La perspective d’assigner simplement une tâche et de revenir une fois terminée est largement hors de portée.
Mais ces nouveaux outils de codage agentiques, dirigés par des produits comme Devin, Swe-Agent, OpenHands et l’OpenAAI Codex, sont conçus pour fonctionner sans que les utilisateurs aient jamais à voir le code. L’objectif est de fonctionner comme le directeur d’une équipe d’ingénierie, d’aider les problèmes à travers des systèmes de travail comme Asana ou Slack et d’enregistrer quand une solution a été atteinte.
Pour les croyants en des formes d’IA hautement capables, c’est la prochaine étape logique dans une progression naturelle de l’automatisation prenant de plus en plus de travail logiciel.
«Au début, les gens viennent d’écrire du code en appuyant sur chaque sélexe», explique Kilian Lieret, chercheur de Princeton et membre de l’équipe SWE-Agent. «Github Copilot a été le premier produit qui se fait offrir une véritable compléte automatique, ce qui est en quelque sorte un stage deux. Vous êtes toujours dans la boucle, mais parfois vous pouvez prendre un raccourci.
L’objectif des systèmes agentiques est d’aller au-delà du développeur entièrement, à la place de présenter aux agents du codage un problème et de les laisser le résoudre par eux-mêmes. «Nous ramenons les choses sur la couche de gestion, où j’attribue simplement un rapport de bogue et le bot essaie de le réparer de manière correcte», explique Lieret.
C’est un amour ambitieux, et jusqu’à présent, c’est une difficulté prouvée.
Après que Devin soit généralement disponible à la fin de 2024, il a tiré des critiques cinglantes des experts YouTube, ainsi qu’une critique plus mesurée d’un premier client à la réponse.ai. L’impression générale était familière pour les anciens combattants codant pour vibration: avec tant d’erreurs, superviser les modèles nécessite autant de travail que de faire la tâche manuellement. (Bien que le déploiement de Devin ait été un peu difficile, il a empêché les fusions de reconnaître le potentiel – en mars, la société mère de Devin, Cognition AI, aurait collecté des centaines de millions de dollars à une évaluation de 4 milliards de dollars.)
Même les partisans de la technologie de la technologie contre le codage des vibrations non supervisé, considérant le nouveau codage comme des éléments puissants dans un processus de développement à superficie humaine.
« En ce moment, et je dirais que pour un avenir pré-prévisible, un humain a interdit au temps de la revue du code pour examiner le code qui a été écrivain », explique Robert Brennan, PDG de All Hands AI, qui maintient les main ouverts. « J’ai vu plusieurs personnes travailler elles-mêmes dans un gâchis en approuvant automatiquement chaque code que l’agent écrit. Il devient rapidement incontrôlable. »
Les hallucinations sont également un problème continu. Brennan se souvient d’un incident dans lequel, interrogé sur une API qui avait été publiée après le seuil de données de l’agent de l’agent ouvert, l’agent a fabriqué les détails d’une API qui correspondent à la description. Toutes les mains AI dit qu’elle travaille sur des systèmes pour attraper ces hallucinations avant de pouvoir nuire, mais il y a une solution simple.
Arguabury La meilleure mesure de la progression de la programmation agentique est les classements SWE-Bench, où les développeurs peuvent tester leurs modèles contre un ensemble de restaurants ouverts GitHub. OpenHands détient actuellement la première place du classement vérifié, résolvant 65,8% de l’ensemble de problèmes. OpenAI affirme que l’un des modèles alimentant Codex, Codex-1, peut faire mieux, énumérant un score de 72,1% dans son annonce – bien que le score soit venu avec quelques grottes et n’a pas été vérifiée indépendamment.
La préoccupation parmi les nombreux membres de l’industrie de la technologie est que les scores de référence élevés DONment les exigences se traduisent par un codage agentique véritablement à main. Les codeurs IFNTIC ne peuvent résoudre que trois problèmes sur quatre, ils nécessitent une surveillance significative des développeurs humains – en particulier lors de la lutte contre les systèmes complexes avec plusieurs stages.
Comme la plupart des outils d’IA, l’espoir est que l’improvisation des modèles fondateurs se fera à un rythme constant, permettant finalement aux systèmes de codage agentiques de se développer en outils de développeurs fiables. Mais trouver des moyens de gérer les hallucinations et autres raftations sera cruciale pour y arriver.
«Je pense qu’il y a un petit effet de barrière sonore», explique Brennan. «La question est de savoir combien de confiance pouvez-vous passer aux agents, alors ils retirent plus de votre charge de travail à la fin de la journée?»