Un écart entre les résultats de référence des premiers et tiers pour le modèle d’IA O3 d’OpenAI soulève des questions sur les pratiques de transparence et de test de modèle de l’entreprise.
Lorsque OpenAI a dévoilé l’O3 en décembre, la société a affirmé que le modèle pourrait répondre un peu plus d’un quart de questions sur FrontitierAmath, un ensemble difficile de problèmes mathématiques. Ce score a fait exploser la compétition – le meilleur modèle suivant n’a réussi à répondre correctement qu’environ 2% des problèmes de frontermath.
« Aujourd’hui, toutes les offres ont moins de 2% (sur Frontitiermath) », a déclaré Mark Chen, directeur de la recherche à Openai, lors d’un livestream. « Nous voyons (en interne), avec O3 dans des paramètres de temps de test agressifs, nous avons pu obtenir plus de 25%. »
Il s’avère que ce chiffre était probablement une limite supérieure, réalisée par une version d’O3 avec plus d’informatique derrière elle que le modèle OpenAI a été lancé publiquement le week-end dernier.
Epoch AI, l’institut de recherche derrière Frontitiermath, a publié les résultats de ses tests de référence indépendants de l’O3 vendredi. Epoch a constaté que O3 a marqué environ 10%, bien en dessous du score le plus réclamé d’Openai.
OpenAI a publié O3, leur modèle de raisonnement très attendu, avec O4-Minini, un modèle plus petit et moins cher qui a réussi O3-Minini.
Nous avons évalué les nouveaux modèles sur notre suite de références mathématiques et scientifiques. Résultats dans le fil! pic.twitter.com/5GBTZKEY1B
– Epoch Ai (@EpochaireSearch) 18 avril 2025
Cela ne signifie pas que Openai a menti, en soi. Les résultats de référence publiés par la société en décembre montrent un score à limite inférieure qui correspond au score observé par l’époque. Epoch a également noté que sa configuration de test se retire probablement d’OpenAI et qu’il a utilisé une version mise à jour de FrontitierArt pour ses évaluations.
«La différence entre nos résultats et les OpenAI pourrait être d’OPE à Opech Evalui avec un échafaudage interne plus puissant, en utilisant plus de temps de test (informatique), ou à décruster de ces résultats a été exécuté sur un autre sous-ensemble de Frontitiermath (le problème 180 dans Frontitier-2024-11-26 vS the 290 dans Frontitiermath-2025-02-28-Pivate Problemms)», a écrit Epoch.
Selon la publication sur X de l’ARC Prize Foundation, une organisation qui a testé une version pré-libérée de l’O3, le modèle public O3 «est un modèle différent (…) réglé pour l’utilisation du chat / produit», corroborant le rapport d’Epoch.
« Tous les tiers O3 Calcul sont plus petits que la version que nous (compasmoire) », a écrit le prix ARC. D’une manière générale, un troisième calcul plus grand peut être épargné pour obtenir de meilleurs scores de référence.
Grant, le fait que la libération publique de l’O3 Falls Shorts Shorts tests promis est un peu discutable, car les modèles O3-Mini-min et O4-Mini de l’entreprise surpassent l’O3 sur Frontitiermath, et OpenAI prévoit de débuter une variante O3 plus puissante, O3-FRO, dans la semaine à venir.
Il est cependant un autre rappel que les références de l’IA ne sont mieux pas prises à sa valeur nominale – en particulier lorsque la source est une entreprise avec des services à vendre.
L’analyse comparative des «controverses» devient un événement courant dans l’industrie de l’IA alors que les vendeurs se précipitent pour faire la une des journaux et un esprit avec de nouveaux modèles.
En janvier, Epoch a été critiqué pour avoir attendu de divulguer le financement d’Openai Uniil après que la société a annoncé O3. De nombreux universitaires qui ont contribué à Frontitiermath n’étaient pas informés d’Openai impliqués jusqu’à ce qu’il soit rendu public.
Plus récemment, le XAI d’Elon Musk a été accusé d’avoir publié des graphiques de référence trompeurs pour son dernier modèle d’IA, Grok 3. Ce mois-ci, Meta a admis avoir touché des scores de référence pour une version d’un modèle qui différait de celui que la société a mis à la disposition des développeurs.