Microsoft a construit un faux marché pour tester les agents IA – ils ont échoué de manière surprenante

Mercredi, des chercheurs de Microsoft ont publié un nouvel environnement de simulation conçu pour tester les agents d’IA, ainsi que de nouvelles recherches montrant que les modèles d’agents actuels peuvent être vulnérables à la manipulation. Menée en collaboration avec l’Arizona State University, la recherche soulève de nouvelles questions sur les performances des agents d’IA lorsqu’ils travaillent sans supervision – et sur la rapidité avec laquelle les entreprises d’IA peuvent tenir leurs promesses d’un avenir agent.

L’environnement de simulation, surnommé « Magentic Marketplace » par Microsoft, est conçu comme une plate-forme synthétique permettant d’expérimenter le comportement des agents IA. Une expérience typique pourrait impliquer un agent client essayant de commander un dîner selon les instructions d’un utilisateur, tandis que des agents représentant divers restaurants s’affrontent pour remporter la commande.

Les premières expériences de l’équipe incluaient 100 agents distincts côté client interagissant avec 300 agents côté entreprise. Le code source du marché étant open source, il devrait être simple pour d’autres groupes d’adopter le code pour mener de nouvelles expériences ou reproduire des résultats.

Ece Kamar, directrice générale du AI Frontiers Lab de Microsoft Research, affirme que ce type de recherche sera essentiel pour comprendre les capacités des agents IA. « Il y a vraiment une question sur la façon dont le monde va changer si ces agents collaborent, se parlent et négocient », a déclaré Kamar. « Nous voulons comprendre ces choses en profondeur. »

La recherche initiale a porté sur un mélange de modèles leaders, notamment GPT-4o, GPT-5 et Gemini-2.5-Flash, et a découvert des faiblesses surprenantes. En particulier, les chercheurs ont découvert plusieurs techniques que les entreprises pourraient utiliser pour manipuler les agents clients et les amener à acheter leurs produits. Les chercheurs ont remarqué une baisse particulière de l’efficacité, car un agent client disposait de plus d’options parmi lesquelles choisir, submergeant ainsi son espace d’attention.

«Nous voulons que ces agents nous aident à traiter de nombreuses options», explique Kamar. « Et nous constatons que les modèles actuels sont vraiment dépassés par le trop grand nombre d’options. »

Les agents ont également rencontré des difficultés lorsqu’on leur a demandé de collaborer vers un objectif commun, ne sachant apparemment pas quel agent devait jouer quel rôle dans la collaboration. Les performances se sont améliorées lorsque les modèles ont reçu des instructions plus explicites sur la manière de collaborer, mais les chercheurs ont toujours considéré que les capacités inhérentes des modèles avaient besoin d’être améliorées.

Événement Techcrunch

San Francisco
|
13-15 octobre 2026

« Nous pouvons instruire les modèles, comme nous pouvons le leur dire, étape par étape », a déclaré Kamar. « Mais si nous testons intrinsèquement leurs capacités de collaboration, je m’attendrais à ce que ces modèles disposent de ces capacités par défaut. »

Source link

What's Hot

Jamie Dimon sur l’IA : « Un jour, nous pourrions tous travailler moins et vivre une vie meilleure »

L’accélérateur est au sol pour les véhicules autonomes

Les républicains de l’Indiana sont confrontés à un « processus dangereux et intimidant » alors que le président Trump fait pression pour un redécoupage

Microsoft a construit un faux marché pour tester les agents IA – ils ont échoué de manière surprenante

L’accélérateur est au sol pour les véhicules autonomes

Coinbase recommence à intégrer des utilisateurs en Inde et prévoit une rampe d’accès fiduciaire l’année prochaine

OpenAI dit qu’il a désactivé les suggestions d’applications qui ressemblent à des publicités

Pat Gelsinger veut sauver la loi de Moore, avec un peu d’aide du gouvernement fédéral

Luana López Lara : à 29 ans, la plus jeune milliardaire autodidacte au monde redéfinit la fintech

Luana López Lara : à 29 ans, la plus jeune milliardaire autodidacte au monde redéfinit la fintech

La fintech BNPL Klarna présente Tap To Pay pour les transactions en magasin sur les marchés mondiaux

Top Insights

Jamie Dimon sur l’IA : « Un jour, nous pourrions tous travailler moins et vivre une vie meilleure »

L’accélérateur est au sol pour les véhicules autonomes

Les républicains de l’Indiana sont confrontés à un « processus dangereux et intimidant » alors que le président Trump fait pression pour un redécoupage

What's Hot

Microsoft a construit un faux marché pour tester les agents IA – ils ont échoué de manière surprenante

Related Posts

Subscribe to Updates