Les outils de codage de l'IA se déplacent vers un endroit surprenant: le terminal

Pendant des années, des outils de codage comme Cursor, Windsurf et GitHub’s Copilot ont été la norme pour le développement de logiciels à pow. Mais l’agent AI devient plus puissant et le codage d’ambiance décolle, un changement subtil a changé la façon dont un système d’IA interagit avec les logiciels.

Intoread of Work on Code, ils interagissent de plus en plus directement avec le shell de n’importe quel système dans lequel ils ont installé. Il s’agit d’un changement significatif dans la façon dont le développement de logiciels de puissance AI se produit – malgré le profil bas, cela pourrait avoir des implications significatives pour où le champ va d’ici.

Le terminal est surtout connu comme l’écran en noir et blanc dont vous vous souvenez des films de pirate des années 90 – une façon très ancienne de gérer des programmes et de manipuler les données. Ce n’est pas aussi visuellement impressionnant que les éditeurs de code contemporains, mais c’est une interface extrêmement puissante si vous savez comment l’utiliser. Et bien que les agents basés sur le code puissent écrire et déboguer du code, des outils de terminal sont souvent nécessaires pour obtenir des logiciels de code écrit à quelque chose qui peut réellement être utilisé.

Le signe le plus clair du passage au terminal provient de grands laboratoires. Sendce février, Anthropic, DeepMind et Openai ont tous les outils de codage de ligne de commande (Claude Code, Gemini CLI et Clé Codex, respectivement), et ils font déjà partie des produits les plus populaires des sociétés.

Ce changement a été facile à manquer, car ils fonctionnent largement sous la même marque que les outils de codage précédents. Mais sous le capot, il y a eu un réel changement dans la façon dont les agents interagissent avec d’autres ordinateurs, en ligne et hors ligne. Certains croient que ces changements ne font que commencer.

«Notre grand pari est qu’il y a un avenir dans lequel 95% de l’interaction LLM-ordinateur se fait par une interface de type terminal», explique Mike Merrill, co-crémeau de la principale banc de benque de référence axée sur le terminal.

Des outils basés sur des terminaux se présentent également, tout comme des outils basés sur du code commencent à avoir l’air fragile. L’éditeur de code AI Windsurf a été déchiré par des acquisitions en duel, les cadres supérieurs embauchés par Google et la société restante acquise par cognition en liant le produit à long terme du produit de consommation incertain.

Événement TechCrunch

San Francisco
|
27-29 octobre 2025

Dans le même temps, de nouvelles recherches suggèrent que les programmeurs peuvent surestimer les gains de productivité des outils de convention. Chez MetR Study Testing Cursor Pro, le principal concurrent de Windsurf, a constaté que si les développeurs estimaient qu’ils pouvaient effectuer des tâches de 20% à 30% rapidement, le processus observé était nécessaire à 20% plus lent. En bref, l’assistant de code coûtait réellement des programmes de temps.

Cela a laissé un ouvreur pour des sociétés comme Warp, qui occupe actuellement la première place sur le banc de terminal. Warp se présente comme un «environnement de développement agentique», un terrain d’entente entre les programmes IDE et les outils en ligne de commande comme Claude Code.

Mais le fondateur de Warp, Zach Lloyd, est toujours optimiste sur le terminal, le voyant comme un moyen de résoudre les problèmes qui seraient hors de portée pour un éditeur de code comme Cursor.

«Le terminal a occupé un niveau très bas dans la pile de développement, c’est donc l’endroit le plus polyvalent pour être des agents de course», dit Lloyd.

Pour comprendre en quoi la nouvelle approche est différente, il peut être utile de regarder les repères utilisés pour les mesurer. La génération d’outils basée sur le code était axée sur la résolution des problèmes de github, la base du test de banc SWE. Chaque problème sur SWE-Bench est un problème ouvert de GitHub-Essential, un morceau de code qui ne fonctionne pas.

Les modèles itérent sur le code jusqu’à ce qu’ils trouvent quelque chose qui fonctionne, en résolvant le problème. Des produits intégrés comme Cursor ont construit des approches plus sophistiquées du problème, mais le modèle GitHub / Swe-Bench est toujours au cœur de la façon dont Ther Tools approche: commencer par le code brisé et le transformer en code qui fonctionne.

Les outils basés sur les terminaux prennent une vue plus large, en regardant au-delà du code dans l’environnement entier dans lequel un programme s’exécute.

Dans un problème de borne de terminal, les instructions donnent un programme de décompression et un fichier texte cible, mettant à l’agent au défi de rétro-ingénieur un algorithme de compression correspondant. Un autre demande à l’agent de construire le noyau Linux à partir de la source, n’ayant pas mentionné que l’agent devra télécharger le code source lui-même. La résolution des SOID nécessite le type de capacité de résolution de problèmes à taureaux dont les programmes ont besoin.

«Ce qui rend TerminalBench difficile, ce n’est pas seulement les questions que nous donnons aux agents», explique le co-créateur du banc de terminal Alex Shaw. « C’est l’environnement dans lequel nous les plaçons. »

Surtout, cette nouvelle approche signifie s’attaquer à un problème étape par étape – la même compétence qui rend l’agent IA si puissant. Mais même les modèles agentiques de pointe ne peuvent pas gérer tout ce qui autour. Warp a obtenu son score élevé sur le banc de terminal en résolvant un peu plus de la moitié des problèmes – une marque de la difficulté de la référence et de la quantité de travail doit encore être pour débloquer le plein potentiel du terminal.

Pourtant, Lloyd croit que nous avons déjà été à un point où les outils basés sur les terminaux peuvent connecter une grande partie de la valeur de travail non codante d’un développeur qui est difficile à ignorer.

«Si vous pensez au travail quotidien de mise en place d’un nouveau projet, de déterminer les dépendances et de le faire acquitter, Warp peut à peu près le faire de manière autonome», explique Lloyd. «Et si cela peut le faire, cela vous dira pourquoi.»

Source link

What's Hot

L’Allemagne rejette la proposition de l’UE pour un budget de 2 billions d’euros

Tiktok ajoute des fonctionnalités pour les auteurs-compositeurs à son application

Le marché du travail britannique s’affaiblit à mesure que les coûts de main-d’œuvre plus élevés à mâcher

Les outils de codage de l’IA se déplacent vers un endroit surprenant: le terminal

Tiktok ajoute des fonctionnalités pour les auteurs-compositeurs à son application

Jack Dorsey pompe 10 millions de dollars dans un organisme à but non lucratif axé sur les médias sociaux open source

Apple News + ajoute un nouveau jeu qui utilise des emoji et des genmoji aux puzzles de Sovle

L’application de messagerie tout-en-un de Beeper relaude avec un modèle à disque et des mises à niveau premium

Tiger Broker 2025, la meilleure société mondiale de fintech reconnue par CNBC

FinTechBite: Advisor360, l’azote annonce les mises à jour de l’IA pour la productivité des conseillers

M-KOPA fabrique la meilleure société de fintech mondiale de CNBC en 2025

Top Insights

L’Allemagne rejette la proposition de l’UE pour un budget de 2 billions d’euros

Tiktok ajoute des fonctionnalités pour les auteurs-compositeurs à son application

Le marché du travail britannique s’affaiblit à mesure que les coûts de main-d’œuvre plus élevés à mâcher

What's Hot

Les outils de codage de l’IA se déplacent vers un endroit surprenant: le terminal

Related Posts

Subscribe to Updates