« Nous volons peut-être à l'aveugle » : AWS veut résoudre le problème des agents d'IA qui s'éloignent de leurs tâches

Anup Deoras, directeur des technologies d’IA des agents chez Amazon Web Services, n’a pas tendance à s’alarmer. Mais lorsqu’on lui demande ce qui se passerait si les agents d’IA étaient introduits dans les environnements de production sans garde-fous appropriés, il s’est montré moins rassuré.

« Sans cela, nous pourrions voler à l’aveugle, et cela m’inquiète moi-même », a-t-il déclaré.

Ces commentaires interviennent alors qu’AWS se prépare à publier ce qui pourrait être l’étude autocritique la plus importante réalisée cette année par un important fournisseur de cloud. Dans une étude publiée lundi, les scientifiques d’Amazon Gaurav Gupta et Vatshank Chaturvedi expliquent en détail pourquoi les agents d’IA ont une tendance persistante à se surpasser eux-mêmes et pourquoi la résolution du problème nécessite de repenser l’ensemble de la couche logicielle entre le modèle et ses outils.

Le timing est remarquable. Selon le Financial Times, Amazon a passé l’année dernière comme l’un des évangélistes les plus agressifs de l’adoption de l’IA, mais elle s’est heurtée à un mur lorsqu’il a été rapporté que les employés demandaient à leurs agents d’IA d’effectuer des tâches vides et inutiles juste pour grimper dans un classement de productivité construit par les employés appelé KiroRank. Amazon a fermé KiroRank le 29 mai, mais Amazon a déclaré à Fortune qu’avant la fermeture, il n’était qu’en mode bêta et utilisé uniquement par certains employés. La société a déclaré qu’elle mesure généralement l’utilisation des jetons pour comprendre les modèles de coûts et d’efficacité, mais ne recommande pas d’utiliser l’utilisation des jetons pour mesurer la productivité des développeurs.

La même semaine, Fortune a couvert l’effondrement généralisé de l’ère TokenMax. Les chercheurs d’AWS, qui ont travaillé sur l’étude avant la fermeture de KiroRank, affirment que le problème des mesures de jeu va bien plus loin que les classements d’une entreprise.

L’étude mentionne le terme benchmax. Le Benchmaxing est une méthode permettant d’augmenter les scores de référence de l’IA grâce à de meilleures configurations de serveur plutôt qu’à de meilleurs modèles. Les chercheurs ont découvert que des facteurs tels que la fiabilité du backend d’inférence, la bande passante du réseau lors de l’installation du logiciel et les paramètres de politique de délai d’attente peuvent faire varier les résultats de 5 à 10 points de pourcentage. Cela n’a rien à voir avec ce que le modèle sous-jacent peut réellement faire.

« Les critères de référence actuels sont très faibles », a déclaré Deoras à Fortune. « Il n’y a aucun avantage à mal gérer les normes de ces infrastructures ; en fait, les avantages ne sont pas vrais, car dans les opérations réelles, il y a des contraintes qui doivent être respectées. »

Les similitudes avec KiroRank ne sont pas une coïncidence. Dans les deux cas (nombre de jetons de jeu des employés, configuration de l’infrastructure de jeu de l’entreprise), les mesures s’écartaient de ce qu’elles étaient censées mesurer. La loi de Goodhart stipule que toute contre-mesure appliquée deux fois à deux niveaux différents de la même entreprise cesse d’être une contre-mesure utile dès qu’elle devient une cible. Cependant, Deoras a pris soin de faire la distinction entre benchmax et tokenmax.

« La maximisation des jetons consiste simplement à brûler des jetons pour effectuer des tâches qui ne sont peut-être pas réellement nécessaires, mais uniquement pour améliorer votre classement dans le classement », a-t-il déclaré. En revanche, l’analyse comparative concerne les conditions structurelles par lesquelles des industries entières se mesurent, et ces conditions sont systématiquement manipulées ou ignorées, affirme l’étude.

Mais la conclusion la plus importante de l’étude concerne ce qui se passe en interne après le déploiement de l’agent. L’étude identifie ce que les auteurs appellent l’écart intention-exécution, une rupture dans l’interface entre un modèle d’IA et le « harnais logiciel » qui exécute ses instructions. Deoras a expliqué que le harnais est essentiellement un système d’exploitation qui se trouve au-dessus du modèle de langage, le « cerveau » qui se combine avec le modèle pour produire des résultats d’agent appropriés.

S’il reste trop longtemps sans vérifier l’environnement réel, l’agent aggravera encore le problème. Ils forment des hypothèses internes sur l’état du système qui s’écartent silencieusement de la réalité et émettent des commandes basées sur ces hypothèses. Plus la chaîne de pensée est longue, plus la dérive est profonde.

Lorsqu’on lui a demandé si le harnais était un endroit où un humain entre dans la boucle pour corriger les faux pas d’un agent, Deoras a répondu : « Oui et non ». Les humains impliqués dans la boucle devraient être ceux qui comprennent ce qui va mal se passer lorsque l’agent sera déployé, a-t-il déclaré, « et c’est le travail des scientifiques qui construisent l’agent ». « Mais si nous parlons du consommateur humain, nous ne voulons pas le submerger. »

Deoras affirme que la solution est un bac à sable. Il s’agit d’un environnement contrôlé dans lequel les agents peuvent tester des hypothèses, échouer en toute sécurité et corriger leur trajectoire avant de prendre des mesures ayant un impact sur les systèmes de production.

« Sans bac à sable, les agents vont se montrer conservateurs ou prendre des mesures que nous pensons très risquées à long terme », a-t-il déclaré.

L’analogie qu’il a trouvée est celle du génie logiciel responsable. Il s’agit de l’environnement de développement et du pipeline de tests de pré-production qui ont toujours existé pour détecter les erreurs avant qu’elles n’atteignent l’utilisateur. Il soutient que les agents ont besoin de la même infrastructure.

« Ce dont nous parlons en réalité, c’est d’un moyen sûr et sécurisé de tester les fonctionnalités avant de les mettre en production », a-t-il déclaré. « C’est ça. »

D’une certaine manière, c’est la même leçon que KiroRank a enseignée au niveau organisationnel et qui est désormais appliquée aux machines elles-mêmes. Sans garde-corps, le système s’optimisera dans la mauvaise direction. La différence est que les agents qui fonctionnent à l’aveugle en production sont plus difficiles à arrêter que les classements.

Le point le plus large de la discussion de cette étude est sa remise en question implicite des revendications concurrentielles des principaux fournisseurs de modèles. Ces entreprises publient des scores de référence en utilisant des harnais optimisés pour leurs modèles dès leur conception. Les recherches AWS montrent que les harnais indépendants du modèle (des harnais construits sur des principes de conception qui fonctionnent avec Claude, GPT, Gemini et Grok sans ajustements spécifiques au modèle) peuvent égaler ou dépasser ces scores.

« Les performances des agents ne sont pas vraiment liées à un seul modèle de fournisseur », explique Deoras. « Cela ouvre la possibilité de créer une variété d’applications sans être limité à un modèle spécifique. »

Pour étayer cette affirmation, AWS a open source son framework appelé Simple Strands Agent. Selon les chercheurs, le cadre surpasse les alternatives open source populaires selon trois critères de référence majeurs du secteur.

Le débat plus profond qui sous-tend tout cela est un débat que l’industrie a mis du temps à absorber. La recherche montre que la plupart des améliorations apportées aux performances de l’IA à ce jour sont des optimisations fragiles qui surajustent les bizarreries d’une version de modèle particulière et s’évaporent à mesure que le modèle s’améliore.

« À mesure que le modèle s’améliore, ces comportements changent et ces gains deviennent fragiles et inaltérables », selon l’étude.

Ce qu’il faut à la place, c’est un choix de conception qui survit aux mises à niveau du modèle car il est intégré au harnais, et non au modèle, sur la base de principes immuables. Deoras a déclaré que la découverte de ces invariants était celle qui l’avait le plus surpris.

« Malgré les différences dans les philosophies de modélisation, il existe des propriétés invariantes communes qui unissent tous ces modèles », a-t-il déclaré. « Nous ne nous y attendions pas, mais ces données ont naturellement émergé de la trace d’observabilité. »

Il y a des implications pratiques pour toute organisation basée sur l’IA. Les équipes chargées de repenser les harnais à chaque fois qu’un nouveau modèle est publié (toutes les organisations déployant actuellement des agents) passent leur temps sur les mauvais problèmes.

« L’équipe est submergée par le changement et la reconstruction de modèles à chaque mise à niveau d’un modèle », explique Deoras.

La vision de la direction des agents qu’il décrit n’est pas celle d’une autonomie incontrôlée, mais une vision plus réfléchie dans laquelle les humains fixent la direction, les agents exécutent et un bac à sable détecte les erreurs entre les deux.

« Nous voulons qu’un humain soit aux commandes, qu’il dirige le travail, puis qu’il lâche prise », dit-il. « C’est l’avenir que nous visons. »

La question reste ouverte pour l’instant de savoir si l’industrie pourra y parvenir avant que le vol à l’aveugle ne rattrape son retard.

Source link

What's Hot

Les outils open source de Microsoft ont été piratés pour voler les mots de passe des développeurs d’IA

70 % des élèves de quatrième année ne savent pas lire correctement. Les enfants ne sont pas les seuls à prendre du retard face au coronavirus

WWDC 2026 : tout annoncé sur Siri AI, iOS 27, Apple Intelligence et plus

« Nous volons peut-être à l’aveugle » : AWS veut résoudre le problème des agents d’IA qui s’éloignent de leurs tâches

70 % des élèves de quatrième année ne savent pas lire correctement. Les enfants ne sont pas les seuls à prendre du retard face au coronavirus

Le pire jour de l’année pour le trading de l’IA s’est transformé en opportunité d’achat lundi.

Comment les investisseurs individuels peuvent participer à l’introduction en bourse de SpaceX

Les travailleurs du SoFi Stadium votent pour autoriser la grève alors que Los Angeles se prépare à accueillir les matchs de la Coupe du monde

PH entretient des liens étroits avec des groupes fintech australiens

Chirag Agrawal—Head of Digital Marketing—Discusses Top Fintech Software Development Trends for 2027

Yashish Dahiya et Alok Bansal cèdent 665 Cr d’actions PB Fintech

Top Insights

Les outils open source de Microsoft ont été piratés pour voler les mots de passe des développeurs d’IA

70 % des élèves de quatrième année ne savent pas lire correctement. Les enfants ne sont pas les seuls à prendre du retard face au coronavirus

WWDC 2026 : tout annoncé sur Siri AI, iOS 27, Apple Intelligence et plus

What's Hot

« Nous volons peut-être à l’aveugle » : AWS veut résoudre le problème des agents d’IA qui s’éloignent de leurs tâches

Related Posts

Subscribe to Updates