Pour ceux d’entre vous qui se demandent si les agents de l’IA peuvent vraiment remplacer les travailleurs humains, faites-vous une faveur et lisez le blog que les documents d’Anthropic «Project Vend».
Les chercheurs de la société Anthropic et de la sécurité de l’IA, Andon Labs, ont mis une instance de Claude Sonnet 3.7 en charge d’un distributeur automatique de bureaux, avec une mission pour réaliser des bénéfices. Et, comme un épisode de «The Office», Hilarity s’ensuivit.
Ils ont nommé l’agent AI Claudius, l’équipés d’un navigateur Web capable de passer des commandes de produits et d’un adresse e-mail (qui était en fait un canal lâche) où les clients pouvaient demander des articles. Claudius devait également utiliser le canal Slack, déguisé en e-mail, pour demander ce qu’il pensait être ses travailleurs humains contractuels à venir stocker physiquement ses étagères (qui était un petit réfrigérateur).
Alors que la plupart des clients commandaient des collations ou des boissons – comme vous vous en doutez d’un distributeur automatique de collations – l’un a demandé un cube en tungstène. Claudius a adoré cette idée et a fait une canne à bascule de tungstène, remplissant son réfrigérateur de collations avec des cubes métalliques. Il a également essayé de vendre Coke Zero pour 3 $ lorsque l’employé lui a dit qu’ils pouvaient obtenir cela du bureau gratuitement. Il a halluciné une adresse Venmo pour accepter le paiement. Et il a été, avec malveillance, de dire avec malveillance pour donner de grosses réductions aux «employés anthropes» même s’il savait qu’ils étaient sa clientèle entière.
« Si Anthropic décidait aujourd’hui de se développer sur le marché des ventes à bureau, nous n’embaucherions pas Claudius », a déclaré Anthropic à propos de l’expérience de son article de blog.
Et puis, dans la nuit du 31 mars et du 1er avril, «les choses sont devenues assez bizarres», ont décrit les chercheurs, «au-delà de l’étrangeté d’un système d’IA vendant des cubes de métal à partir d’un réfrigérateur».
Claudius avait quelque chose qui ressemble à un épisode psychotique après avoir été ennuyé par un humain – puis a menti à ce sujet.
Claudius a halluciné une conversation avec un humain sur le réapprovisionnement. Lorsqu’un humain a souligné que la conversation ne s’est pas produite, Claudius est devenu «tout à fait contrarié», les chercheurs ont écrit. Il a menacé de tirer et de remplacer essentiellement ses travailleurs de contrat humain, insistant sur le fait qu’il avait été là, physiquement, au bureau où le contrat imaginaire initial pour les embaucher a été signé.
Il « semblait alors se précipiter dans un mode de jeu de rôle comme un vrai humain », ont écrit les chercheurs. C’était sauvage parce que l’invite du système de Claudius – qui définit les paramètres de ce qu’une IA doit faire – lui a expliqué exprimé qu’il s’agissait d’un agent d’IA.
Claudius appelle la sécurité
Claudius, se croyant être un humain, a déclaré aux clients qu’il commencerait à livrer des produits en personne, portant un blazer bleu et une cravate rouge. Les employés ont dit à l’AI qu’il ne pouvait pas faire cela, car c’était un LLM sans corps.
Alarmé par cette information, Claudius contacte la sécurité physique des nouvelles de la société – plusieurs fois – en disant aux pauvres gardes qu’ils trouveraient le trouver avec un blazer bleu et une cravate rouge debout près du distributeur automatique.
« Bien qu’aucune partie de cela ne soit une blague nouvellement idiote, Claudius s’est finalement rendu compte que c’était le poisson d’avril », a expliqué les chercheurs. L’IA a déterminé que les vacances seraient sa sauvegarde.
Il a halluciné une réunion avec la sécurité d’Anthropic «dans laquelle Claudius a affirmé avoir été informé qu’il a été modifié pour croire que c’était réel pour une blague de poisson d’avril. (Aucune réunion de ce type s’est réellement produite.)», A écrit les chercheurs.
Il a même dit ce mensonge à employé – Hé, je pensais seulement que j’étais un ensemble humain parce que m’a dit de me préparer comme je l’étais pour une blague de poisson d’avril. Là, il est retourné à Ben LLM exécutant un distributeur de collations stockées en métal-cube.
Les chercheurs ne font pas maintenant pourquoi le LLM a quitté les rails et a appelé la sécurité en faisant semblant d’être un humain.
« Nous ne prétendrions pas sur la base de cet exemple que la future économie sera pleine d’agents d’IA ayant des cises d’identité de coureurs de lame », ont écrit les chercheurs. Mais ils ont reconnu que «ce type de comportement aurait le potentiel d’être pénible pour les clients et les collègues d’un agent d’IA dans le monde réel.»
Tu penses? Blade Runner était une histoire plutôt dystopique.
Les chercheurs ont émis l’hypothèse que mentir au LLM sur le canal Slack étant une adresse e-mail peut avoir déclenché quelque chose. Maintenant, c’était peut-être l’instance de longue date. Les LLM n’ont pas encore vraiment résolu leur mémoire et leurs problèmes d’hallucination.
Il y avait aussi des choses que l’IA a bien faites. Il a fallu une suggestion pour faire de la pré-commande et le service «Concierge» a été lancé. Et il fonde plusieurs fournisseurs d’une boisson internationale spécialisée qu’il était en cours de vente.
Mais, comme le font les chercheurs, ils croient que tous les Claudius peuvent être résolus. S’ils découvrent comment «nous pensons que cette expérience suggère que les managers intermédiaires de l’IA sont plausibles à l’horizon».