Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Ford réembauche des ingénieurs à « barbe grise » après l’échec de l’IA

juin 28, 2026

L’abandon des sanctions contre l’Iran par le président Trump mettra fin à des décennies de retenue

juin 28, 2026

Poutine admet que la Russie traverse une « période difficile » après que le drone ukrainien a coupé son approvisionnement en carburant

juin 28, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Les nouveaux modèles d’IA d’Openai Hallucine plus
Startups

Les nouveaux modèles d’IA d’Openai Hallucine plus

JohnBy Johnavril 18, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Les modèles O3 et O4-Mini d’OpenAI ont été lancés à bien des égards à bien des égards. Cependant, les nouveaux modèles hallucinent toujours ou inventent les choses – en fait, ils hallucinent plus que plusieurs des anciens modèles d’Openai.

Les hallucinations se sont révélées être l’un des plus grands et les plus difficiles problème à résoudre dans l’IA, impact même le système le plus performant d’aujourd’hui. Historiquement, chaque nouveau modèle s’est légèrement amélioré dans le département d’hallucination, hallucinant moins que son prédécesseur. Mais cela ne semble pas être le cas pour O3 et O4-MinI.

Selon les tests internes d’OpenAI, O3 et O4-MinI, qui sont des modèles de raisonnement, hallucinent plus souvent que les précédents modèles de raisonnement de l’entreprise, O1-MINI et O3-MINI ainsi que les modèles traditionnels et non remontés « d’Openai, tels que GPT-4O.

Peut-être plus préoccupant, le fabricant de chatpt ne sait pas vraiment pourquoi cela se produit.

Dans son rapport technique pour O3 et O4-MinI, OpenAI écrit que «plus de recherches sont nécessaires» pour comprendre que les hallucinations s’aggravent à mesure qu’elle augmente les modèles de raisonnement. O3 et O4-Minini fonctionnent mieux dans certaines régions, comprenaient des tâches liées au codage et aux mathématiques. Mais parce qu’ils «font plus de réclamations dans l’ensemble», ils sont souvent amenés à faire des «réclamations plus accrurées ainsi que des réclamations plus inexactes / hallucinées», selon le report.

OpenAI a constaté que O3 a halluciné dans responsable de 33% des questions sur PersonQA, la référence interne de la société pour mesurer l’exactitude des connaissances d’un modèle sur les personnes. C’est à peu près le double du taux d’hallucination des modèles de raisonnement précédents d’OpenAI, O1 et O3-MinI, qui ont marqué 16% et 14,8%, respectif. O4-Minini a fait encore pire sur Personqa-hallucin 48% du temps.

Tests de tiers de TransLUSE, un laboratoire de recherche sur l’IA à but non lucratif, a également constaté que la tendance à inventer des mesures a pris dans le processus d’arrivée à des réponses. Dans un exemple, TransLUSE a observé O3 affirmant qu’il a exécuté du code sur un MacBook Pro 2021 «en dehors de Chatgpt», a ensuite copié les nombres dans sa réponse. Bien que O3 ait accès à certains outils, il ne peut pas le faire.

« Notre hypothèse est que le type d’utilisation de l’apprentissage par renforcement pour les modèles de la série O peut s’amplifier qui sont utialement atténués (mais pas entièrement effacés) par des pipelines post-entraînement standard », a déclaré Neil Chowdhury, chercheur et formation de formation à TechCrunch.

Sarah Schwettmann, co-fondatrice de TranspeLa, a ajouté que le taux d’hallucination d’O3 pourrait le rendre moins utile qu’il ne le serait autrement.

Kian Katanforoosh, professeur auxiliaire et PDG de Stanford de la startup UPSO Workera, a déclaré à TechCrunch que son équipe teste déjà O3 dans leurs workflows de codage, et qu’ils avaient trouvé qu’il s’agissait d’un pas de concours. Cependant, Katanforoosh dit que l’O3 a tendance à halluciner les liens de site Web brisé. Le modèle fournira un lien qui, lorsqu’il est cliqué, ne fonctionne pas.

Les hallucinations peuvent aider les modèles à arriver à des idées intéressantes et à être créatifs dans leur «pensée», mais ils font également de certains modèles une vente difficile pour les affaires sur les marchés où la précision est primordiale. Par exemple, un cabinet d’avocats ne serait probablement pas satisfait d’un modèle qui insère de nombreuses erreurs de ballon dans les contrats clients.

Une approche prometteuse pour augmenter la précision des modèles est de leur donner des capacités de recherche Web. Le GPT-4O d’OpenAI avec Recherche Web atteint une précision de 90% sur SimpleQA, une autre des références de précision d’Openai. Potentialy, la recherche pourrait améliorer les taux d’hallucination des modèles de raisonnement, aussi bien au moins dans les cas où les utilisateurs sont prêts à exprimer un trip de trimestre à un fournisseur de recherche tiers.

Si la mise à l’échelle des modèles de raisonnement continue en effet d’aggraver les hallucinations, cela rendra la recherche d’une solution d’autant plus urgente.

« La lutte contre les hallucinations sur tous nos modèles est une recherche en cours, et nous travaillons continuellement pour améliorer leur précision et leur raviabilité », a déclaré le porte-parole d’Openai, Niko Felix, dans un e-mail à TechCrunch.

Au cours de la dernière année, l’industrie de l’IA plus large a pivoté pour se concentrer sur les modèles de raisonnement après des techniques pour améliorer les modèles d’IA traditionnels qui ont commencé à montrer des rendements diminués. Le raisonnement améliore les performances du modèle sur la variété des tâches sans nécessiter d’amants massifs de calcul et de données pendant la formation. Pourtant, il semble que le raisonnement puisse également conduire à plus d’hallucination – se présenter dans le défi.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleEverything you need to know about the AI chatbot
Next Article TechStars augmente le financement des startups à 220 000 $, reflétant la structure YC
John
  • Website

Related Posts

Ford réembauche des ingénieurs à « barbe grise » après l’échec de l’IA

juin 28, 2026

Writer Ian Bogost says ‘The Small Stuff’ can help us reclaim our lives from dematerialization

juin 28, 2026

TechCrunch Mobility : tous les regards sont tournés vers Tesla FSD

juin 28, 2026

Pourquoi Wall Street pense que le fabricant américain de mémoires Micron est le prochain Nvidia

juin 28, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Startups à surveiller en juin

juin 28, 2026

GMP d’introduction en bourse d’aujourd’hui : l’introduction en bourse de Turtlemint Fintech Solutions envisage une cotation faible alors que la prime du marché gris diminue pendant deux jours

juin 28, 2026

Quelles actions fintech sont les meilleures à acheter en 2026 ?

juin 26, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Ford réembauche des ingénieurs à « barbe grise » après l’échec de l’IA

juin 28, 2026

L’abandon des sanctions contre l’Iran par le président Trump mettra fin à des décennies de retenue

juin 28, 2026

Poutine admet que la Russie traverse une « période difficile » après que le drone ukrainien a coupé son approvisionnement en carburant

juin 28, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.