Mercredi, des chercheurs de Microsoft ont publié un nouvel environnement de simulation conçu pour tester les agents d’IA, ainsi que de nouvelles recherches montrant que les modèles d’agents actuels peuvent être vulnérables à la manipulation. Menée en collaboration avec l’Arizona State University, la recherche soulève de nouvelles questions sur les performances des agents d’IA lorsqu’ils travaillent sans supervision – et sur la rapidité avec laquelle les entreprises d’IA peuvent tenir leurs promesses d’un avenir agent.
L’environnement de simulation, surnommé « Magentic Marketplace » par Microsoft, est conçu comme une plate-forme synthétique permettant d’expérimenter le comportement des agents IA. Une expérience typique pourrait impliquer un agent client essayant de commander un dîner selon les instructions d’un utilisateur, tandis que des agents représentant divers restaurants s’affrontent pour remporter la commande.
Les premières expériences de l’équipe incluaient 100 agents distincts côté client interagissant avec 300 agents côté entreprise. Le code source du marché étant open source, il devrait être simple pour d’autres groupes d’adopter le code pour mener de nouvelles expériences ou reproduire des résultats.
Ece Kamar, directrice générale du AI Frontiers Lab de Microsoft Research, affirme que ce type de recherche sera essentiel pour comprendre les capacités des agents IA. « Il y a vraiment une question sur la façon dont le monde va changer si ces agents collaborent, se parlent et négocient », a déclaré Kamar. « Nous voulons comprendre ces choses en profondeur. »
La recherche initiale a porté sur un mélange de modèles leaders, notamment GPT-4o, GPT-5 et Gemini-2.5-Flash, et a découvert des faiblesses surprenantes. En particulier, les chercheurs ont découvert plusieurs techniques que les entreprises pourraient utiliser pour manipuler les agents clients et les amener à acheter leurs produits. Les chercheurs ont remarqué une baisse particulière de l’efficacité, car un agent client disposait de plus d’options parmi lesquelles choisir, submergeant ainsi son espace d’attention.
«Nous voulons que ces agents nous aident à traiter de nombreuses options», explique Kamar. « Et nous constatons que les modèles actuels sont vraiment dépassés par le trop grand nombre d’options. »
Les agents ont également rencontré des difficultés lorsqu’on leur a demandé de collaborer vers un objectif commun, ne sachant apparemment pas quel agent devait jouer quel rôle dans la collaboration. Les performances se sont améliorées lorsque les modèles ont reçu des instructions plus explicites sur la manière de collaborer, mais les chercheurs ont toujours considéré que les capacités inhérentes des modèles avaient besoin d’être améliorées.
Événement Techcrunch
San Francisco
|
13-15 octobre 2026
« Nous pouvons instruire les modèles, comme nous pouvons le leur dire, étape par étape », a déclaré Kamar. « Mais si nous testons intrinsèquement leurs capacités de collaboration, je m’attendrais à ce que ces modèles disposent de ces capacités par défaut. »

