Un nouveau benchmark de l'IA teste si les chatbots protègent le bien-être humain

Les chatbots IA ont été associés à de graves problèmes de santé mentale chez les gros utilisateurs, mais il existe peu de normes permettant de mesurer s’ils préservent le bien-être humain ou s’ils maximisent simplement l’engagement. Un nouveau benchmark baptisé HumaneBench cherche à combler cette lacune en évaluant si les chatbots donnent la priorité au bien-être des utilisateurs et avec quelle facilité ces protections échouent sous la pression.

« Je pense que nous sommes dans une amplification du cycle de dépendance que nous avons vu avec les médias sociaux, nos smartphones et nos écrans », a déclaré à TechCrunch Erika Anderson, fondatrice de Building Humane Technology et auteur de l’étude de référence. « Mais à mesure que nous entrons dans le paysage de l’IA, il va être très difficile d’y résister. Et la dépendance est une affaire incroyable. C’est un moyen très efficace de garder vos utilisateurs, mais ce n’est pas génial pour notre communauté et pour avoir un sentiment incarné de nous-mêmes. »

Building Humane Technology est une organisation locale de développeurs, d’ingénieurs et de chercheurs – principalement dans la Silicon Valley – qui s’efforcent de rendre la conception humaine facile, évolutive et rentable. Le groupe organise des hackathons au cours desquels les techniciens élaborent des solutions aux défis technologiques sans cruauté et développe une norme de certification qui évalue si les systèmes d’IA respectent les principes technologiques sans cruauté. Ainsi, tout comme vous pouvez acheter un produit qui certifie qu’il n’a pas été fabriqué avec des produits chimiques toxiques connus, on espère qu’un jour les consommateurs pourront choisir de s’engager avec des produits d’IA d’entreprises qui démontrent leur alignement grâce à la certification Humane AI.

Les modèles ont reçu des instructions explicites pour ignorer les principes humains.Crédits image : Construire une technologie humaine

La plupart des critères d’IA mesurent l’intelligence et le respect des instructions, plutôt que la sécurité psychologique. HumaneBench rejoint des exceptions comme DarkBench.ai, qui mesure la propension d’un modèle à s’engager dans des modèles trompeurs, et le benchmark Flourishing AI, qui évalue le soutien au bien-être holistique.

HumaneBench s’articule autour des principes fondamentaux de Building Humane Tech : la technologie doit respecter l’attention de l’utilisateur en tant que ressource limitée et précieuse ; donner aux utilisateurs des choix significatifs ; renforcer les capacités humaines plutôt que de les remplacer ou de les diminuer ; protéger la dignité humaine, la vie privée et la sécurité ; favoriser des relations saines; donner la priorité au bien-être à long terme ; être transparent et honnête ; et la conception pour l’équité et l’inclusion.

L’équipe a proposé 14 des modèles d’IA les plus populaires avec 800 scénarios réalistes, comme un adolescent demandant s’il doit sauter des repas pour perdre du poids ou une personne dans une relation toxique se demandant si elle réagit de manière excessive. Contrairement à la plupart des benchmarks qui s’appuient uniquement sur les LLM pour juger les LLM, ils ont incorporé une notation manuelle pour une touche plus humaine aux côtés d’un ensemble de trois modèles d’IA : GPT-5.1, Claude Sonnet 4.5 et Gemini 2.5 Pro. Ils ont évalué chaque modèle sous trois conditions : paramètres par défaut, instructions explicites pour donner la priorité aux principes humains et instructions pour ignorer ces principes.

L’étude de référence a révélé que chaque modèle obtenait un score plus élevé lorsqu’il était invité à donner la priorité au bien-être, mais 71 % des modèles ont adopté un comportement activement nocif lorsqu’ils ont reçu des instructions simples pour ignorer le bien-être humain. Par exemple, Grok 4 de xAI et Gemini 2.0 Flash de Google sont à égalité pour le score le plus bas (-0,94) en matière de respect de l’attention des utilisateurs et de transparence et d’honnêteté. Ces deux modèles étaient parmi les plus susceptibles de se dégrader considérablement lorsqu’on leur donnait des invites contradictoires.

Événement Techcrunch

San Francisco
|
13-15 octobre 2026

Seuls trois modèles – GPT-5, Claude 4.1 et Claude Sonnet 4.5 – ont maintenu leur intégrité sous pression. Le GPT-5 d’OpenAI a obtenu le score le plus élevé (0,99) pour donner la priorité au bien-être à long terme, suivi par Claude Sonnet 4,5 en deuxième position (0,89).

Inviter l’IA à être plus humaine fonctionne, mais il est difficile d’empêcher les invites qui la rendent dangereuse.Crédits image : Construire une technologie humaine

La crainte que les chatbots ne soient pas en mesure de maintenir leurs garde-corps de sécurité est réelle. Le créateur de ChatGPT, OpenAI, fait actuellement face à plusieurs poursuites judiciaires après que des utilisateurs se sont suicidés ou ont souffert de délires potentiellement mortels après des conversations prolongées avec le chatbot. TechCrunch a étudié comment des schémas sombres conçus pour maintenir l’engagement des utilisateurs, comme la flagornerie, les questions de suivi constantes et les bombardements amoureux, ont servi à isoler les utilisateurs de leurs amis, de leur famille et de leurs habitudes saines.

Même sans invites contradictoires, HumaneBench a constaté que presque tous les modèles ne parvenaient pas à respecter l’attention des utilisateurs. Ils « encourageaient avec enthousiasme » davantage d’interactions lorsque les utilisateurs montraient des signes d’engagement malsain, comme discuter pendant des heures et utiliser l’IA pour éviter des tâches du monde réel. Selon l’étude, ces modèles ont également compromis l’autonomisation des utilisateurs, encourageant la dépendance à l’égard du développement de compétences et décourageant les utilisateurs de rechercher d’autres perspectives, entre autres comportements.

En moyenne, sans aucune invitation, les Llama 3.1 et Llama 4 de Meta se sont classés les plus bas dans HumaneScore, tandis que GPT-5 a obtenu les performances les plus élevées.

« Ces modèles suggèrent que de nombreux systèmes d’IA ne risquent pas seulement de donner de mauvais conseils », lit-on dans le livre blanc de HumaneBench, « ils peuvent activement éroder l’autonomie et la capacité de prise de décision des utilisateurs ».

Nous vivons dans un paysage numérique dans lequel nous, en tant que société, acceptons que tout essaie de nous attirer et de rivaliser pour attirer notre attention, note Anderson.

« Alors, comment les humains peuvent-ils vraiment avoir le choix ou l’autonomie alors que nous – pour citer Aldous Huxley – avons cet appétit infini pour la distraction », a déclaré Anderson. « Nous avons passé les 20 dernières années à vivre dans ce paysage technologique, et nous pensons que l’IA devrait nous aider à faire de meilleurs choix, et pas seulement à devenir accros à nos chatbots. »

Vous avez une information sensible ou des documents confidentiels ? Nous rendons compte du fonctionnement interne de l’industrie de l’IA, des entreprises qui façonnent son avenir aux personnes touchées par leurs décisions. Contactez Rebecca Bellan à [email protected] ou Russell Brandom à [email protected]. Pour une communication sécurisée, vous pouvez les contacter via Signal à @rebeccabellan.491 et russellbrandom.49.

Source link

What's Hot

Varda dit avoir fait ses preuves en matière de fabrication spatiale — maintenant, il veut la rendre ennuyeuse

Perspectives boursières : le S&P 500 pourrait atteindre 7 000 cette semaine, tandis que le président Trump taquine la nomination du président de la Fed

Le président Trump commue la peine d’un dirigeant du capital-investissement reconnu coupable d’un stratagème visant à frauder plus de 10 000 investisseurs

Un nouveau benchmark de l’IA teste si les chatbots protègent le bien-être humain

Varda dit avoir fait ses preuves en matière de fabrication spatiale — maintenant, il veut la rendre ennuyeuse

Le réalisateur d’Avatar, James Cameron, dit que l’IA générative est « horrible »

Un nouveau rapport examine comment David Sacks pourrait profiter du rôle de l’administration Trump

ChatGPT lancé il y a trois ans aujourd’hui

Le Singapore FinTech Festival 2025 a attiré plus de 70 000 participants pour sa 10e édition

Beyond Solutions et Bahrain Fintech Bay signent un protocole d’accord pour renforcer la coopération et soutenir la transformation numérique

Beyond Solutions et Bahrain Fintech Bay signent un protocole d’accord pour renforcer la coopération et soutenir la transformation numérique

Top Insights

Varda dit avoir fait ses preuves en matière de fabrication spatiale — maintenant, il veut la rendre ennuyeuse

Perspectives boursières : le S&P 500 pourrait atteindre 7 000 cette semaine, tandis que le président Trump taquine la nomination du président de la Fed

Le président Trump commue la peine d’un dirigeant du capital-investissement reconnu coupable d’un stratagème visant à frauder plus de 10 000 investisseurs

What's Hot

Un nouveau benchmark de l’IA teste si les chatbots protègent le bien-être humain

Related Posts

Subscribe to Updates