Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

BlackRock fixe 400 millions de dollars d’objectifs de financement pour affronter des géants des capitaux privés

juin 12, 2025

Seule la crise séparera l’Occident de la dette

juin 12, 2025

META SUES AI ‘NUDIFY’ App Crush AI pour la publicité sur ses plateformes

juin 12, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Xai a-t-il menti sur les références de Grok 3?
Startups

Xai a-t-il menti sur les références de Grok 3?

JohnBy Johnfévrier 22, 2025Aucun commentaire3 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Les débats sur les références de l’IA – et comment sont rapportés par les laboratoires AI – se répandent dans le public.

Cette semaine, un OpenAI a employé l’accusé, la société d’IA d’Elon Musk, XAI, de publier des résultats de référence trompeuses pour son dernier modèle d’IA, Grok 3. L’un des co-fondateurs de Xai, Igor Babushkin, a insisté sur le fait que la société était dans la droite.

La vérité se situe quelque part entre les deux.

Dans un article sur le blog de Xai, la société a publié un graphique montrant les performances de Grok 3 sur AIME 2025, une collection de questions mathématiques difficiles à partir d’un examen de mathématiques de l’invitation à la redémarrage. Certains experts ont remis en question la validité de l’amour en tant que référence en IA. Néanmoins, les versions AIME 2025 et plus anciennes du test sont couramment utilisées pour sonder la capacité mathématique d’un modèle.

Le graphique de Xai a montré deux variantes de Grok 3, Grok 3 Raisonnement Beta et Grok 3 Mini Raisonnement, battant le modèle disponible le plus performant d’Openai, O3-MinI-High, nous aimons 2025. Mais les employés d’Openai sur X ont rapidement souligné que cela n’a pas fait T Inclut le score des Loves 2025 de O3-Mini-High à «CONS @ 64».

Qu’est-ce que Cons @ 64, vous pourriez demander? Eh bien, il est court pour «consensus @ 64», et Basalely donne à un modèle 64 essaie de répondre à chaque problème dans une référence et prend les réponses générées le plus fréquemment comme réponses finales. Comme vous pouvez l’imaginer, Cons @ 64 a tendance à stimuler un peu les scores de référence des modèles, et l’omettre à partir d’un graphique pourrait donner l’impression qu’un modèle dépassant Anch et en réalité, ce n’est pas le cas.

Grok 3 Reasoning Beta et Grok 3 Mini Reasoning Scores pour AIME 2025 à «@ 1» – En ce qui concerne le premier score que les modèles ont obtenu sur la référence en dessous du score de O3-Mini-High. Grok 3 Reashing Beta suit également toujours si légèrement derrière le modèle O1 d’Openai sur l’informatique «moyenne». Pourtant, Xai annonce Grok 3 comme le «World’s Smartte AI».

Babushkin a soutenu sur X qu’Openai a publié des graphiques de référence trompeurs similaires dans le passé – bien que des graphiques comparant les performances de ses propres modèles. Une partie plus neutre dans le débat a mis en place un graphique plus «précis» montrant presque les performances de toutes les modèles à CONS @ 64:

Hilarant comment les gens voient mon intrigue comme une attaque contre Openai et d’autres comme attaque contre Grok alors qu’en réalité c’est une propagande profonde
(Je crois que Grok a l’air bien là-bas, et TTC Chicanery d’Openai derrière O3-Mini- * High * -Pass @ «  » « 1 ″ » mérite plus de voteRÉTÉ.) Https://t.co/djqljpcjh8 pic.twitter.com / 3Wh8foufic

– Teortaxes ▶ ️ (Deepseek 推特🐋铁粉 2023 – ∞) (@teortaxeStex) 20 février 2025

Mais un chercheur d’IA Nathan Lambert Pointd dans un post, peut-être la plus importante la plus métrique reste un mystère: le coût de calcul (et monétaire) qu’il a fallu à chaque modèle pour obtenir son meilleur score. Cela montre simplement à quel point la plupart des repères d’IA communiquent peu sur les limites des modèles – et leurs forces.





Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous Article« Nouvelles possibilités pour la mobilité de demain »
Next Article L’IA ouvre des portes « sans fin » pour les mannequins et ferme les autres
John
  • Website

Related Posts

META SUES AI ‘NUDIFY’ App Crush AI pour la publicité sur ses plateformes

juin 12, 2025

L’informatique multi-une composition augmente 215 millions de dollars pour la technologie qui pourrait radicalement mincer les coûts d’IA

juin 12, 2025

Vingt ans forts: une lettre d’amour à TechCrunch

juin 12, 2025

Apple est une aire de jeux d’image de récupération avec un coup de pouce de Chatgpt

juin 11, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Rencontrez les gagnants du Swiss Fintech Award 2025 – Fintech Schweiz Digital Finance News

juin 11, 2025

Les tests d’introduction en bourse de Chime de Chime désirent les désirs de la fintech alors que les entreprises s’alignent à la sortie – NBC New York

juin 11, 2025

Comment les sociétés indonésiennes de fintech pour combler la fintech regroupant l’écart de financement pour les femmes entrepreneurs

juin 11, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

BlackRock fixe 400 millions de dollars d’objectifs de financement pour affronter des géants des capitaux privés

juin 12, 2025

Seule la crise séparera l’Occident de la dette

juin 12, 2025

META SUES AI ‘NUDIFY’ App Crush AI pour la publicité sur ses plateformes

juin 12, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.