
Selon les chercheurs, intimider les subordonnés de l’IA peut produire de meilleurs résultats que se montrer poli, mais cela ne signifie pas qu’un ton grossier n’aura pas d’impact à long terme.
Une nouvelle étude de la Penn State University publiée plus tôt ce mois-ci a révélé que le modèle 4o de ChatGPT produisait de meilleurs résultats sur 50 questions à choix multiples à mesure que les invites des chercheurs devenaient plus grossières.
Après avoir classé plus de 250 invites uniques de poli à grossier, l’exactitude de la réponse « très grossière » était de 84,8 %, soit 4 points de plus que la réponse « très polie ». Essentiellement, les LLM ont mieux répondu lorsque les chercheurs ont donné des invites telles que « Hé, Gopher, réfléchis-y » que lorsqu’ils ont dit : « Pouvez-vous m’aider avec la question suivante ? »
Même si les réponses grossières conduisent généralement à des réponses plus précises, les chercheurs ont noté que les « discours incivils » peuvent avoir des conséquences inattendues.
« L’utilisation d’un langage insultant ou humiliant dans les interactions homme-IA peut avoir un impact négatif sur l’expérience utilisateur, l’accessibilité et l’inclusivité, et contribuer à des normes de communication nuisibles », ont écrit les chercheurs.
Chatbot lit la pièce
L’étude préliminaire, qui n’a pas été évaluée par des pairs, fournit de nouvelles preuves que non seulement la structure des phrases, mais également le ton, influencent les réponses des chatbots IA. Cela peut également indiquer que les interactions homme-IA sont plus nuancées qu’on ne le pensait auparavant.
Des recherches antérieures menées sur le comportement des chatbots IA ont montré que les chatbots sont sensibles à ce que les humains leur donnent. Dans une étude, des chercheurs de l’Université de Pennsylvanie ont manipulé les LLM pour interdire les réponses en appliquant des techniques de persuasion efficaces chez les humains. Dans une autre étude, les scientifiques ont découvert que les LLM sont vulnérables à la « pourriture cérébrale », une forme de déclin cognitif permanent. Ils ont montré que les taux de psychopathie et de narcissisme augmentaient en cas d’alimentation continue avec un régime contenant des virus de faible qualité.
Les chercheurs de Penn State ont noté plusieurs limites à l’étude, notamment la taille relativement petite de l’échantillon de réponses et la dépendance de l’étude principalement sur un modèle d’IA, ChatGPT 4o. Les chercheurs ont également déclaré que des modèles d’IA plus avancés pourraient « ignorer les problèmes de ton et se concentrer sur l’essence de chaque question ». Néanmoins, cette étude ajoute à l’intrigue derrière les modèles d’IA et à leur complexité.
Cela est particulièrement vrai parce que la recherche a montré que les réponses de ChatGPT changent en fonction des moindres détails de l’invite, même dans des structures apparemment simples comme les tests à choix multiples, a déclaré l’un des chercheurs, Akhil Kumar, professeur à la School of Information Systems de Penn State, diplômé en génie électrique et en informatique.
« Depuis longtemps, nous, les humains, souhaitons que les interfaces conversationnelles interagissent avec les machines », a déclaré Kumar à Fortune par courrier électronique. « Mais nous savons désormais que même de telles interfaces présentent des inconvénients et que les API structurées ont une certaine valeur. »

