Les modèles O3 et O4-Mini d’OpenAI ont été lancés à bien des égards à bien des égards. Cependant, les nouveaux modèles hallucinent toujours ou inventent les choses – en fait, ils hallucinent plus que plusieurs des anciens modèles d’Openai.
Les hallucinations se sont révélées être l’un des plus grands et les plus difficiles problème à résoudre dans l’IA, impact même le système le plus performant d’aujourd’hui. Historiquement, chaque nouveau modèle s’est légèrement amélioré dans le département d’hallucination, hallucinant moins que son prédécesseur. Mais cela ne semble pas être le cas pour O3 et O4-MinI.
Selon les tests internes d’OpenAI, O3 et O4-MinI, qui sont des modèles de raisonnement, hallucinent plus souvent que les précédents modèles de raisonnement de l’entreprise, O1-MINI et O3-MINI ainsi que les modèles traditionnels et non remontés « d’Openai, tels que GPT-4O.
Peut-être plus préoccupant, le fabricant de chatpt ne sait pas vraiment pourquoi cela se produit.
Dans son rapport technique pour O3 et O4-MinI, OpenAI écrit que «plus de recherches sont nécessaires» pour comprendre que les hallucinations s’aggravent à mesure qu’elle augmente les modèles de raisonnement. O3 et O4-Minini fonctionnent mieux dans certaines régions, comprenaient des tâches liées au codage et aux mathématiques. Mais parce qu’ils «font plus de réclamations dans l’ensemble», ils sont souvent amenés à faire des «réclamations plus accrurées ainsi que des réclamations plus inexactes / hallucinées», selon le report.
OpenAI a constaté que O3 a halluciné dans responsable de 33% des questions sur PersonQA, la référence interne de la société pour mesurer l’exactitude des connaissances d’un modèle sur les personnes. C’est à peu près le double du taux d’hallucination des modèles de raisonnement précédents d’OpenAI, O1 et O3-MinI, qui ont marqué 16% et 14,8%, respectif. O4-Minini a fait encore pire sur Personqa-hallucin 48% du temps.
Tests de tiers de TransLUSE, un laboratoire de recherche sur l’IA à but non lucratif, a également constaté que la tendance à inventer des mesures a pris dans le processus d’arrivée à des réponses. Dans un exemple, TransLUSE a observé O3 affirmant qu’il a exécuté du code sur un MacBook Pro 2021 «en dehors de Chatgpt», a ensuite copié les nombres dans sa réponse. Bien que O3 ait accès à certains outils, il ne peut pas le faire.
« Notre hypothèse est que le type d’utilisation de l’apprentissage par renforcement pour les modèles de la série O peut s’amplifier qui sont utialement atténués (mais pas entièrement effacés) par des pipelines post-entraînement standard », a déclaré Neil Chowdhury, chercheur et formation de formation à TechCrunch.
Sarah Schwettmann, co-fondatrice de TranspeLa, a ajouté que le taux d’hallucination d’O3 pourrait le rendre moins utile qu’il ne le serait autrement.
Kian Katanforoosh, professeur auxiliaire et PDG de Stanford de la startup UPSO Workera, a déclaré à TechCrunch que son équipe teste déjà O3 dans leurs workflows de codage, et qu’ils avaient trouvé qu’il s’agissait d’un pas de concours. Cependant, Katanforoosh dit que l’O3 a tendance à halluciner les liens de site Web brisé. Le modèle fournira un lien qui, lorsqu’il est cliqué, ne fonctionne pas.
Les hallucinations peuvent aider les modèles à arriver à des idées intéressantes et à être créatifs dans leur «pensée», mais ils font également de certains modèles une vente difficile pour les affaires sur les marchés où la précision est primordiale. Par exemple, un cabinet d’avocats ne serait probablement pas satisfait d’un modèle qui insère de nombreuses erreurs de ballon dans les contrats clients.
Une approche prometteuse pour augmenter la précision des modèles est de leur donner des capacités de recherche Web. Le GPT-4O d’OpenAI avec Recherche Web atteint une précision de 90% sur SimpleQA, une autre des références de précision d’Openai. Potentialy, la recherche pourrait améliorer les taux d’hallucination des modèles de raisonnement, aussi bien au moins dans les cas où les utilisateurs sont prêts à exprimer un trip de trimestre à un fournisseur de recherche tiers.
Si la mise à l’échelle des modèles de raisonnement continue en effet d’aggraver les hallucinations, cela rendra la recherche d’une solution d’autant plus urgente.
« La lutte contre les hallucinations sur tous nos modèles est une recherche en cours, et nous travaillons continuellement pour améliorer leur précision et leur raviabilité », a déclaré le porte-parole d’Openai, Niko Felix, dans un e-mail à TechCrunch.
Au cours de la dernière année, l’industrie de l’IA plus large a pivoté pour se concentrer sur les modèles de raisonnement après des techniques pour améliorer les modèles d’IA traditionnels qui ont commencé à montrer des rendements diminués. Le raisonnement améliore les performances du modèle sur la variété des tâches sans nécessiter d’amants massifs de calcul et de données pendant la formation. Pourtant, il semble que le raisonnement puisse également conduire à plus d’hallucination – se présenter dans le défi.

