Le message X désormais viral du chercheur en sécurité Meta AI Summer Yue se lit, au premier abord, comme une satire. Elle a demandé à son agent OpenClaw AI de vérifier sa boîte de réception surchargée et de suggérer ce qu’il fallait supprimer ou archiver.
L’agent s’est mis à devenir fou. Il a commencé à supprimer tous ses e-mails dans une « course rapide » tout en ignorant les commandes de son téléphone lui disant d’arrêter.
«J’ai dû courir sur mon Mac mini comme si je désamorçais une bombe», a-t-elle écrit, publiant des images des invites d’arrêt ignorées comme reçus.
Le Mac Mini, un ordinateur Apple abordable qui se pose à plat sur un bureau et tient dans la paume de votre main, est devenu l’appareil préféré de nos jours pour exécuter OpenClaw. (La Mini se vend « comme des petits pains », a apparemment déclaré un employé d’Apple « confus » au célèbre chercheur en IA Andrej Karpathy lorsqu’il en a acheté une pour exécuter une alternative à OpenClaw appelée NanoClaw.)
OpenClaw est, bien sûr, l’agent d’IA open source qui est devenu célèbre grâce à Moltbook, un réseau social réservé à l’IA. Les agents OpenClaw étaient au centre de cet épisode désormais largement démystifié sur Moltbook dans lequel il semblait que les IA complotaient contre les humains.
Mais la mission d’OpenClaw, selon sa page GitHub, ne se concentre pas sur les réseaux sociaux. Il vise à être un assistant personnel d’IA qui fonctionne sur vos propres appareils.
Le public de la Silicon Valley est tombé tellement amoureux d’OpenClaw que « griffe » et « griffes » sont devenus les mots à la mode de choix pour les agents qui fonctionnent sur du matériel personnel. D’autres agents de ce type incluent ZeroClaw, IronClaw et PicoClaw. L’équipe de podcast de Y Combinator est même apparue dans son épisode le plus récent vêtue de costumes de homard.
Événement Techcrunch
Boston, Massachusetts
|
9 juin 2026
Mais le message de Yue sert d’avertissement. Comme d’autres l’ont noté sur X, si un chercheur en sécurité de l’IA pouvait se heurter à ce problème, quel espoir les simples mortels auraient-ils ?
« Avez-vous intentionnellement testé ses garde-corps ou avez-vous commis une erreur de débutant ? un développeur de logiciels lui a demandé
« Erreur de recrue, à vrai dire », a-t-elle répondu. Elle avait testé son agent avec une boîte de réception « jouet » plus petite, comme elle l’appelait, et celle-ci fonctionnait bien pour les e-mails moins importants. Cela lui avait gagné sa confiance, alors elle a pensé qu’elle se laisserait aller au vrai.
Yue pense que la grande quantité de données dans sa véritable boîte de réception « a déclenché le compactage », a-t-elle écrit. Le compactage se produit lorsque la fenêtre contextuelle – l’enregistrement en cours de tout ce que l’IA a été dit et fait au cours d’une session – devient trop grande, ce qui oblige l’agent à commencer à résumer, compresser et gérer la conversation.
À ce stade, l’IA peut sauter des instructions que l’humain considère comme très importantes.
Dans ce cas, il a peut-être ignoré sa dernière invite – où elle lui a dit de ne pas agir – et est revenu aux instructions de la boîte de réception « jouet ».
Comme plusieurs autres personnes sur X l’ont souligné, on ne peut pas faire confiance aux invites pour agir comme des garde-fous de sécurité. Les modèles peuvent mal les interpréter ou les ignorer.
Diverses personnes ont proposé des suggestions allant de la syntaxe exacte que Yue aurait dû utiliser pour arrêter l’agent, à diverses méthodes pour garantir un meilleur respect des garde-fous, comme l’écriture d’instructions dans des fichiers dédiés ou l’utilisation d’autres outils open source.
Dans un souci de transparence totale, TechCrunch n’a pas pu vérifier de manière indépendante ce qui est arrivé à la boîte de réception de Yue. (Elle n’a pas répondu à notre demande de commentaires, bien qu’elle ait répondu à de nombreuses questions et commentaires qui lui ont été envoyés sur X.)
Mais cela n’a pas vraiment d’importance.
Le point central de cette histoire est que les agents destinés aux travailleurs du savoir, à leur stade actuel de développement, sont risqués. Les gens qui disent les utiliser avec succès concoctent des méthodes pour se protéger.
Un jour, peut-être bientôt (d’ici 2027 ? 2028 ?), ils seront peut-être prêts à être largement utilisés. Dieu sait que beaucoup d’entre nous aimeraient avoir de l’aide pour les e-mails, les commandes d’épicerie et la planification des rendez-vous chez le dentiste. Mais ce jour n’est pas encore venu.

