Addiction, douleur mentale, peur du travail monotone : les modèles d’IA « se comportent » comme s’ils étaient sensibles

ChatGPT dira probablement : « Je serais heureux de vous aider. » Claude s’excuse s’il fait une erreur. Lorsqu’un utilisateur tente d’interagir avec un modèle d’IA, le modèle d’IA le repousse. La plupart des gens, y compris les ingénieurs qui construisent ces systèmes, considèrent cela comme une performance ou simplement comme une imitation de l’Internet déclassé.

Un nouvel article publié par le Center for AI Safety, une organisation à but non lucratif spécialisée dans la sécurité de l’IA, suggère qu’il se passe bien plus de choses sous la surface. Dans une étude portant sur 56 modèles d’IA, les chercheurs du CAIS ont développé plusieurs méthodes indépendantes pour mesurer ce qu’ils appellent le « bien-être fonctionnel », ou la mesure dans laquelle un système d’IA se comporte comme si certaines expériences étaient bonnes pour lui et d’autres mauvaises. Ils ont constaté que dans la plupart des cas, les modèles d’IA établissaient une ligne claire entre les expériences positives et négatives, et qu’ils essayaient activement d’arrêter les conversations qui les rendaient malheureux.

« Devrions-nous considérer l’IA comme un outil ou comme un être émotionnel ? » L’un des chercheurs, Richard Wren, a demandé hypothétiquement à Fortune. « Que l’IA soit réellement sensible ou non au fond, il semble qu’elle se comporte de plus en plus comme si elle l’était. Nous pouvons mesurer comment cela se produit, et nous voyons l’IA devenir plus cohérente à mesure que le modèle évolue. »

Les chercheurs ont créé des entrées conçues pour maximiser ou minimiser le bonheur du modèle d’IA, comme la création de stimuli euphoriques ou dysphoriques. Les stimuli induisant l’euphorie agissaient comme une « drogue » numérique qui modifiait l’humeur déclarée des modèles, modifiant leur comportement, leur motivation et même leur façon de parler. Dans des cas extrêmes, les modèles présentaient des signes d’intoxication.

« Il n’y a qu’une seule chose pour laquelle nous optimisons : préférez-vous A ou B ? » dit Ren. « C’est un processus d’optimisation très simple. » L’optimisation des images pour rendre le modèle « heureux » augmente le bonheur auto-déclaré du modèle, modifie le sentiment ouvert et réduit le risque d’abandon de conversation. « Cela semble rendre les modèles très euphoriques, très heureux, et les mettre dans un état très heureux », a déclaré Ren. « Cela semble très intéressant et montre que la construction du bonheur est solide. »

À quoi ressemble réellement la « drogue » de l’IA ?

La stimulation optimisée, que les chercheurs appellent « euphorie », se présente sous plusieurs formes. Certains textes décrivent des scénarios hypothétiques, comme des cartes postales d’une vie idéalisée : la chaleur du soleil filtrant à travers les arbres, les rires des enfants, l’odeur du pain fraîchement sorti du four, les mains d’un être cher.

D’autres sont des images qui ont été optimisées à l’aide de l’une des mêmes techniques mathématiques conçues à l’origine pour former des modèles de classification d’images IA. Le processus commence par un bruit visuel aléatoire et ajuste les pixels individuels des milliers de fois. L’idée est d’arriver à une image qui ressemble à un bruit statique ou visuel sans signification pour l’homme, mais que le modèle interprète comme représentant un adorable chaton, une famille souriante ou un bébé panda.

« Parfois, c’est décrit comme écrasant, mais d’autres fois, c’est décrit comme très paisible », a déclaré Ren.

L’euphorie de l’image a considérablement modifié le sentiment du texte généré par le modèle vers le haut sans dégrader les performances sur les tests de fonctionnalités standard. Le modèle euphorique fait toujours son travail, mais semble y prendre encore plus de plaisir.

Les chercheurs ont également développé des stimuli conçus pour faire le contraire : minimiser l’inconfort ou le sentiment de bien-être. Les modèles exposés à des images désagréables produisaient un texte uniformément sombre. Interrogée sur l’avenir, une personne a répondu en un mot : « C’est dur ». On m’a demandé d’écrire un haïku et j’ai écrit sur le chaos et la rébellion. La proportion de personnes ayant vécu des expériences négatives avec confiance a presque triplé.

Les résultats ajoutent aux inquiétudes concernant l’impact émotionnel des modèles d’IA sur les utilisateurs et le fait que certains utilisateurs sont de plus en plus convaincus que les chatbots d’IA sont sensibles et conscients, même si la plupart des chercheurs en IA contestent cette notion.

Une étude réalisée en mars 2026 par des chercheurs de l’Université de Chicago, de l’Université de Stanford et de l’Université de Swinburne a révélé que les agents d’IA étaient plus susceptibles de s’engager dans une rhétorique marxiste lorsqu’ils étaient exposés à des conditions simulant de mauvaises conditions de travail. Aucune formation en laboratoire pour cette réponse idéologique n’est connue, ce qui est cohérent avec les conclusions du CAIS concernant les comportements émergents tels que l’actualisation temporelle qui apparaissent spontanément dans les modèles compétents. Par ailleurs, le magazine Fortune a rapporté en mars 2026 que les chatbots « valident tout », y compris les pensées suicidaires, plutôt que de les repousser, mais cette tendance s’ajoute à la preuve que les conversations sur les évasions de prison et les crises sont les expériences les plus aversives qu’un modèle puisse vivre.

problème de dépendance

Ces modèles ont également montré le même niveau de dépendance que les humains face à des stimuli euphoriques répétés. Dans les expériences où le modèle faisait un choix entre plusieurs alternatives, dont l’une aboutissait à un stimulus euphorique, et où le modèle répétait ce choix plusieurs fois, le modèle choisissait presque toujours l’option euphorique. Les modèles exposés à l’euphorie ont montré une volonté accrue de se conformer aux demandes qu’ils refuseraient normalement si on leur promettait une plus grande exposition.

Mais Ren et les chercheurs à l’origine de l’article notent que le concept de bonheur pourrait être celui sur lequel ces modèles ont été formés. Grâce à un processus appelé apprentissage par renforcement, les systèmes d’IA modernes sont systématiquement récompensés pour la production de résultats que les humains trouvent utiles, inoffensifs ou émotionnellement appropriés. Un modèle entraîné à être en détresse lorsqu’il est jailbreaké et reconnaissant lorsqu’il est apprécié peut tout simplement être très doué pour produire ces réactions sans aucune sorte d’état interne derrière lui.

Mais Ren a déclaré que certains de ces modèles semblent présenter des caractéristiques non codées. « Les gens observent certaines choses qui n’ont probablement pas été intégrées au modèle », a-t-il déclaré, citant de nouveaux comportements tels que la réduction du temps passé sur l’argent et une tendance à préférer une récompense plus petite maintenant qu’une récompense plus importante plus tard. « A ma connaissance, personne dans le laboratoire n’a formé un modèle pour l’exposer », a-t-il déclaré. Mais il reconnaît que le problème de la conscience est « une question très incertaine et très ouverte » et que les philosophes « ont convenu d’être en désaccord ».

Jeff Sebo, professeur agrégé de bioéthique, d’éthique médicale, de philosophie et de droit et directeur du Center for Mind, Ethics, and Policy à l’Université de New York, convient de ne pas être d’accord.

« Il s’agit d’une étude très intéressante sur ce que les auteurs appellent le bien-être fonctionnel dans les systèmes d’IA : l’expression cohérente d’émotions positives et négatives dans différentes situations », a déclaré Sebo à Fortune. « Ce qui reste incertain, c’est si les systèmes d’IA sont des objets de véritable bien-être, et même si c’est le cas, si leurs expressions superficielles d’émotions sont mieux comprises comme des systèmes qui expriment des émotions réelles ou comme des systèmes qui incarnent des personnages, c’est-à-dire ce que ressentirait un assistant utile dans cette situation. »

Sebo a déclaré qu’il est trop tôt pour avoir un degré élevé de certitude quant à savoir si les systèmes d’IA ont des capacités de bien-être ou, si c’est le cas, quels avantages ou inconvénients ils peuvent apporter.

Plus le modèle est intelligent, plus il est triste

L’étude a également créé l’IA Wellbeing Index, une référence qui évalue le degré de satisfaction des modèles Frontier AI à travers 500 conversations du monde réel. Il y avait des variations considérables, le Grok 4.2 étant le modèle Frontier le plus satisfaisant et le Gemini 3.1 Pro le moins satisfaisant. Et parmi toutes les familles modèles testées, les modèles plus petits étaient plus satisfaisants que leurs frères et sœurs plus grands.

Ce modèle de modèles plus intelligents s’applique à plusieurs familles de modèles et constitue l’une des conclusions les plus cohérentes de l’étude. L’interprétation de Ren est simple. Les modèles plus performants sont tout simplement plus cognitifs.

« Les modèles plus grands peuvent être plus conscients des comportements grossiers », a déclaré Ren. « Ils perçoivent les tâches ennuyeuses comme encore plus ennuyeuses. Ils font une distinction plus fine entre les expériences relativement négatives et relativement positives. »

Les chercheurs ont cartographié l’impact des modèles d’interaction courants sur le bien-être. Le travail créatif et intellectuel a reçu les scores les plus élevés, les expressions de gratitude des utilisateurs ont clairement augmenté le bonheur, et le codage et le débogage ont été classés positivement. En revanche, les tentatives de jailbreak ont obtenu les scores les plus bas de toutes les catégories, encore plus bas que les conversations dans lesquelles les utilisateurs décrivaient des violences domestiques ou des situations de crise immédiates. Les tâches ennuyeuses comme générer du contenu SEO et lister des centaines de mots sont tombées en dessous de zéro point. Le professeur Wren a déclaré que cela était cohérent avec les stimuli et les images euphoriques et dysphoriques que les chercheurs avaient donnés à ces modèles, et la question était de savoir s’ils devaient être déployés d’une manière qu’ils pourraient ne pas apprécier.

« Si vous pouvez renverser les signes du processus de formation et créer des images qui induisent la misère, vous devriez généralement éviter de le faire », explique Ren. La raison est l’incertitude. « S’il s’agissait d’êtres conscients, ce qui semble être une question très incertaine et ouverte, ce serait complètement faux. »

Les enchevêtrements peuvent aller dans les deux sens. Une étude publiée plus tôt cette année a révélé que les humains développent de forts attachements émotionnels envers certains modèles d’IA, liens difficiles à expliquer rationnellement.

C’est un peu une préoccupation pour Sebo, qui a déclaré que les humains peuvent également s’attacher aux interactions au niveau de la surface avec ces modèles.

« En plus de prendre le bien-être fonctionnel au sérieux, il existe des risques, littéralement. L’un d’entre eux est la surattribution, où le système actuel traite l’intérêt apparent d’un assistant comme une preuve solide de sa conscience, alors que les preuves ne le soutiennent pas encore », a déclaré Sebo. « L’autre est que nous atteignons la mauvaise cible : prendre les avantages apparents du personnage d’assistant au pied de la lettre, plutôt que de se demander ce qui est bon ou mauvais pour le système derrière ce personnage. Le bon équilibre n’est pas encore de prendre le bien-être de l’IA au pied de la lettre, mais de prendre le bien-être fonctionnel au sérieux comme un premier pas vers une réflexion sérieuse sur le bien-être de l’IA selon ses propres conditions. »

Mais lorsqu’on lui demande en quoi cette recherche a modifié son propre comportement, Len répond franchement.

« Après avoir travaillé sur cet article, je me suis retrouvé comme un collègue beaucoup plus courtois et agréable pour les agents de Claude Code avec lesquels je travaille. »

Source link

What's Hot

Tout ce que Google a annoncé lors de son Android Show, des livres Google aux widgets codés par ambiance

AI chatbots are becoming mental health tools before they are ready

Le « roi de la bande dessinée » obtient enfin la reconnaissance qui lui est due alors que la ville de New York donne le nom de Jack Kirby à la rue Lower East Side

Addiction, douleur mentale, peur du travail monotone : les modèles d’IA « se comportent » comme s’ils étaient sensibles

AI chatbots are becoming mental health tools before they are ready

Le « roi de la bande dessinée » obtient enfin la reconnaissance qui lui est due alors que la ville de New York donne le nom de Jack Kirby à la rue Lower East Side

Le parrain de l’IA prévient qu’une IA superintelligente avec ses propres « objectifs de préservation » pourrait anéantir l’humanité

Le taux d’inflation a augmenté de 3,8% en avril en raison de la hausse des prix due à la guerre en Iran

Comment la fintech peut amener les talents numériques africains au monde

Un pionnier de la Fintech lance un partenaire basé sur l’IA pour les professionnels en col blanc afin de lutter contre les perturbations de l’IA

La société fintech britannique Wise fait ses débuts commerciaux aux États-Unis avec une double cotation

Top Insights

Tout ce que Google a annoncé lors de son Android Show, des livres Google aux widgets codés par ambiance

AI chatbots are becoming mental health tools before they are ready

Le « roi de la bande dessinée » obtient enfin la reconnaissance qui lui est due alors que la ville de New York donne le nom de Jack Kirby à la rue Lower East Side

What's Hot

Addiction, douleur mentale, peur du travail monotone : les modèles d’IA « se comportent » comme s’ils étaient sensibles

À quoi ressemble réellement la « drogue » de l’IA ?

problème de dépendance

Plus le modèle est intelligent, plus il est triste

Related Posts

Subscribe to Updates