Les débats sur l'analyse comparative de l'IA ont atteint Pokémon

Même Pokémon n’est pas à l’abri de la controverse d’analyse comparative de l’IA.

Le week-end dernier, un article sur X est devenu viral, affirmant que le dernier modèle de Gémeaux de Google dépasse le modèle de claude phare d’Anthropic dans la trilogie originale du jeu vidéo Pokémon. Selon les témoignages, Gemini était arrivé à Lavendar Town dans le flux Twitch du développeur; Claude était coincé à Mount Moon fin février.

Gemini est littéralement en avance sur Claude ATM à Pokémon après avoir atteint la ville de Lavender

119 Vues en direct uniquement btw, incroyablement Underrald Stream pic.twitter.com/8avsovai4x

– JUICEH (@JU JUH21E8) 10 avril 2025

Mais ce que le poste n’a pas mentionné, c’est que les Gémeaux avaient même une annonce.

Comme les utilisateurs de Reddit l’ont souligné, le développeur qui maintient le flux Gemini a construit une minimap personnalisée qui aide le modèle à identifier les «carreaux» dans le jeu comme les arbres CutTables. Cela réduit les besoins des Gémeaux pour analyser les captures d’écran avant de prendre des décisions de jeu.

Maintenant, Pokémon est une référence de l’IA semi-sérus au mieux dirait que c’est un test très informatif des capacités d’un modèle. Mais c’est un exemple instructif de la façon dont différentes implémentations d’une référence peuvent influencer les résultats.

Par exemple, Anthropic a signalé deux scores pour son récent modèle de sonnet anthropique 3.7 sur le Benchmark Swe-Bench vérifié, qui est conçu pour évaluer les capacités de codage d’un modèle. Claude 3.7 Sonnet a réalisé une précision de 62,3% sur SWE-Bench vérifiée, mais 70,3% avec un «échafaudage personnalisé» ce développement anthropique.

Plus récemment, Meta a affiné une version de l’un de ses nouveaux modèles, Llama 4 Maverick, pour bien performer nous avons une référence particulière, LM Arena. La version à la vanille du modèle obtient des scores de signification pires sur la même évaluation.

Étant donné que les benchmarks-pokémon incluent des mesures imparfaites pour commencer, les implémentations personnalisées et non standard menacent de brouiller encore plus les eaux. C’est-à-dire qu’il ne semble pas probable qu’il deviendra plus facile de comparer les modèles Asy’re.

Source link

What's Hot

De nouvelles lunettes approuvées par la FDA pourraient ralentir la myopie chez les enfants

L’application de fond d’écran de MKBHD, Panels, s’arrête

L’investisseur « Big Short » Michael Varley déclare que les actions de Tesla sont « ridiculement surévaluées » et ravive l’intérêt à court terme pour Tesla

Les débats sur l’analyse comparative de l’IA ont atteint Pokémon

L’application de fond d’écran de MKBHD, Panels, s’arrête

Les ouvriers du bâtiment profitent du boom de l’IA

Festivitas vous permet de décorer vos appareils Apple avec des lumières de Noël et de la neige

L’investissement d’OpenAI dans Thrive Holdings est son dernier accord circulaire

La néobanque Web3 apparaît comme la prochaine étape de la finance numérique

Money 20/20 Dates: Your Guide to the Premier FinTech Event in 2025 and Beyond

Le Singapore FinTech Festival 2025 a attiré plus de 70 000 participants pour sa 10e édition

Top Insights

De nouvelles lunettes approuvées par la FDA pourraient ralentir la myopie chez les enfants

L’application de fond d’écran de MKBHD, Panels, s’arrête

L’investisseur « Big Short » Michael Varley déclare que les actions de Tesla sont « ridiculement surévaluées » et ravive l’intérêt à court terme pour Tesla

What's Hot

Les débats sur l’analyse comparative de l’IA ont atteint Pokémon

Related Posts

Subscribe to Updates