Un nouveau document de recherche d’OpenAI demande pourquoi de grands modèles de langue comme GPT-5 et des chatbots comme Chatgpt Hallucine, et tout ce qui peut être pour réduire ces hallucinations.
Dans un article de blog résumant l’article, OpenAI définit les hallucinations comme «des déclarations plausibles mais fausses générées par les modèles de langues» et il reconnaît que malgré les improvisions, les hallucinations «restent un défi fondamental pour tous les modèles de langage large» – qui ne sera jamais votre
Pour illustrer ce point, les chercheurs disent qu’ils ont demandé «un chatbot largement utilisé» sur le titre du doctorat d’Adam Tauman Kalai. Distertation, ils ont obtenu trois différences, tous mal. (Kalai est l’un des auteurs du journal.) Ils sont interrogés sur son anniversaire et ont reçu trois dates différentes. Encore une fois, tous avaient tort.
Comment un chatbot peut-il être si faux – et son son confident dans sa mauvaise herbe? Les chercheurs suggèrent que les hallucinations surviennent, en partie, à faire un processus de pré-formation qui se concentre sur l’obtention de modèles pour prédire correctement le mot suivant, sans étiquettes vraies ou fausses attatées aux déclarations de formation: «Le modèle ne voit que l’exemple positif de la langue courante et doit approximativement.
«L’orthographe et les parenthèses suivent les modèles constitués, donc les erreurs disparaissent avec l’échelle», écrivent-ils. « Mais les faits à faible croissance des références, comme l’anniversaire d’un animal de compagnie, ne peuvent pas être prédits à partir de modèles seuls et conduisent donc à des hallucinations. »
Les propositions du document, cependant, se concentrent moins sur le processus de prétrache initial et plus sur la façon dont les grands modèles de langage sont évalués. Il fait valoir que les modèles d’évaluation actuels ne provoquent pas eux-mêmes des hallucinations, mais ils «définissent les incitations».
Les chercheurs comparent ces évaluations au type de tests à choix multiples de supposition aléatoire ont du sens, car «vous pourriez avoir de la chance et avoir raison», tout en laissant la réponse vide «garantit un zéro.
Événement TechCrunch
San Francisco
|
27-29 octobre 2025
«De la même manière, lorsque les modèles sont classés uniquement sur la précision, le pourcentage de questions qu’ils se répercutent exactement, ils sont encouragés à deviner plutôt que de dire« je ne sais pas », disent-ils.
La solution proposée est donc similaire aux tests (comme le SAT) qui incluent «négatif (notation) pour de mauvaises réponses ou un crédit partiel pour le blanc pour décourager les devinettes aveugles». De même, Openai affirme que les évaluations du modèle doivent «pénaliser davantage les erreurs confiantes que vous ne pénalisez pas la non-intégration et accorder un crédit partiel pour les expressions d’incertitude appropriées».
Et les chercheurs soutiennent qu’il n’est pas Enfuch d’introduire «quelques nouveaux tests d’incertitude sur le côté». Au lieu de cela, « les étions largement utilisées et basées sur la précision doivent être mises à jour afin que leur score décourage deviner. »
« Si les principaux tableaux de bord restent enrichissants, les modèles continueront d’apprendre à deviner », disent les chercheurs.