Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Après une introduction en bourse de 18 milliards de dollars, le fondateur de Bending Spoons affirme que le succès vient de la minimisation de la chance

juillet 1, 2026

À l’intérieur de l’empire cryptographique de 1,4 milliard de dollars du président Trump : Altcoins, Bitcoin et une participation dans la stratégie de Michael Saylor

juillet 1, 2026

La fonctionnalité Masquer mon e-mail d’Apple présente un bug qui expose de vraies adresses e-mail, affirme un chercheur

juillet 1, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Les scores du modèle O3 AI d’OpenAI plus bas sur une référence que l’entreprise impliquait initialement
Startups

Les scores du modèle O3 AI d’OpenAI plus bas sur une référence que l’entreprise impliquait initialement

JohnBy Johnavril 20, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Un écart entre les résultats de référence des premiers et tiers pour le modèle d’IA O3 d’OpenAI soulève des questions sur les pratiques de transparence et de test de modèle de l’entreprise.

Lorsque OpenAI a dévoilé l’O3 en décembre, la société a affirmé que le modèle pourrait répondre un peu plus d’un quart de questions sur FrontitierAmath, un ensemble difficile de problèmes mathématiques. Ce score a fait exploser la compétition – le meilleur modèle suivant n’a réussi à répondre correctement qu’environ 2% des problèmes de frontermath.

« Aujourd’hui, toutes les offres ont moins de 2% (sur Frontitiermath) », a déclaré Mark Chen, directeur de la recherche à Openai, lors d’un livestream. « Nous voyons (en interne), avec O3 dans des paramètres de temps de test agressifs, nous avons pu obtenir plus de 25%. »

Il s’avère que ce chiffre était probablement une limite supérieure, réalisée par une version d’O3 avec plus d’informatique derrière elle que le modèle OpenAI a été lancé publiquement le week-end dernier.

Epoch AI, l’institut de recherche derrière Frontitiermath, a publié les résultats de ses tests de référence indépendants de l’O3 vendredi. Epoch a constaté que O3 a marqué environ 10%, bien en dessous du score le plus réclamé d’Openai.

OpenAI a publié O3, leur modèle de raisonnement très attendu, avec O4-Minini, un modèle plus petit et moins cher qui a réussi O3-Minini.

Nous avons évalué les nouveaux modèles sur notre suite de références mathématiques et scientifiques. Résultats dans le fil! pic.twitter.com/5GBTZKEY1B

– Epoch Ai (@EpochaireSearch) 18 avril 2025

Cela ne signifie pas que Openai a menti, en soi. Les résultats de référence publiés par la société en décembre montrent un score à limite inférieure qui correspond au score observé par l’époque. Epoch a également noté que sa configuration de test se retire probablement d’OpenAI et qu’il a utilisé une version mise à jour de FrontitierArt pour ses évaluations.

«La différence entre nos résultats et les OpenAI pourrait être d’OPE à Opech Evalui avec un échafaudage interne plus puissant, en utilisant plus de temps de test (informatique), ou à décruster de ces résultats a été exécuté sur un autre sous-ensemble de Frontitiermath (le problème 180 dans Frontitier-2024-11-26 vS the 290 dans Frontitiermath-2025-02-28-Pivate Problemms)», a écrit Epoch.

Selon la publication sur X de l’ARC Prize Foundation, une organisation qui a testé une version pré-libérée de l’O3, le modèle public O3 «est un modèle différent (…) réglé pour l’utilisation du chat / produit», corroborant le rapport d’Epoch.

« Tous les tiers O3 Calcul sont plus petits que la version que nous (compasmoire) », a écrit le prix ARC. D’une manière générale, un troisième calcul plus grand peut être épargné pour obtenir de meilleurs scores de référence.

Grant, le fait que la libération publique de l’O3 Falls Shorts Shorts tests promis est un peu discutable, car les modèles O3-Mini-min et O4-Mini de l’entreprise surpassent l’O3 sur Frontitiermath, et OpenAI prévoit de débuter une variante O3 plus puissante, O3-FRO, dans la semaine à venir.

Il est cependant un autre rappel que les références de l’IA ne sont mieux pas prises à sa valeur nominale – en particulier lorsque la source est une entreprise avec des services à vendre.

L’analyse comparative des «controverses» devient un événement courant dans l’industrie de l’IA alors que les vendeurs se précipitent pour faire la une des journaux et un esprit avec de nouveaux modèles.

En janvier, Epoch a été critiqué pour avoir attendu de divulguer le financement d’Openai Uniil après que la société a annoncé O3. De nombreux universitaires qui ont contribué à Frontitiermath n’étaient pas informés d’Openai impliqués jusqu’à ce qu’il soit rendu public.

Plus récemment, le XAI d’Elon Musk a été accusé d’avoir publié des graphiques de référence trompeurs pour son dernier modèle d’IA, Grok 3. Ce mois-ci, Meta a admis avoir touché des scores de référence pour une version d’un modèle qui différait de celui que la société a mis à la disposition des développeurs.





Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleSalon extérieur: le format premium reconstruit le cinéma comme une offre de style de vie – Brand Wagon News
Next Article Nouvelle saison, New Essentials: les dernières versions que vous devez connaître
John
  • Website

Related Posts

Après une introduction en bourse de 18 milliards de dollars, le fondateur de Bending Spoons affirme que le succès vient de la minimisation de la chance

juillet 1, 2026

La fonctionnalité Masquer mon e-mail d’Apple présente un bug qui expose de vraies adresses e-mail, affirme un chercheur

juillet 1, 2026

SpaceX a un prototype d’appareil IA, et cela semble vraiment téléphonique

juillet 1, 2026

Ashton Kutcher quitte Sound Ventures pour lancer une nouvelle société de capital-risque avec Morgan Beller

juillet 1, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

How Koaloo.Fi Became the 2026 Small Business Champion in Fintech Innovation

juillet 1, 2026

PB Fintech étend sa présence à Dubaï et investit Rs 20 milliards dans le secteur des paiements

juin 30, 2026

Passer à un modèle de crédit de détail basé sur l’IA avec Dave Stock et Fintech

juin 30, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Après une introduction en bourse de 18 milliards de dollars, le fondateur de Bending Spoons affirme que le succès vient de la minimisation de la chance

juillet 1, 2026

À l’intérieur de l’empire cryptographique de 1,4 milliard de dollars du président Trump : Altcoins, Bitcoin et une participation dans la stratégie de Michael Saylor

juillet 1, 2026

La fonctionnalité Masquer mon e-mail d’Apple présente un bug qui expose de vraies adresses e-mail, affirme un chercheur

juillet 1, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.