Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

De nouvelles lunettes approuvées par la FDA pourraient ralentir la myopie chez les enfants

décembre 1, 2025

L’application de fond d’écran de MKBHD, Panels, s’arrête

décembre 1, 2025

L’investisseur « Big Short » Michael Varley déclare que les actions de Tesla sont « ridiculement surévaluées » et ravive l’intérêt à court terme pour Tesla

décembre 1, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Les débats sur l’analyse comparative de l’IA ont atteint Pokémon
Startups

Les débats sur l’analyse comparative de l’IA ont atteint Pokémon

JohnBy Johnavril 14, 2025Aucun commentaire2 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Même Pokémon n’est pas à l’abri de la controverse d’analyse comparative de l’IA.

Le week-end dernier, un article sur X est devenu viral, affirmant que le dernier modèle de Gémeaux de Google dépasse le modèle de claude phare d’Anthropic dans la trilogie originale du jeu vidéo Pokémon. Selon les témoignages, Gemini était arrivé à Lavendar Town dans le flux Twitch du développeur; Claude était coincé à Mount Moon fin février.

Gemini est littéralement en avance sur Claude ATM à Pokémon après avoir atteint la ville de Lavender

119 Vues en direct uniquement btw, incroyablement Underrald Stream pic.twitter.com/8avsovai4x

– JUICEH (@JU JUH21E8) 10 avril 2025

Mais ce que le poste n’a pas mentionné, c’est que les Gémeaux avaient même une annonce.

Comme les utilisateurs de Reddit l’ont souligné, le développeur qui maintient le flux Gemini a construit une minimap personnalisée qui aide le modèle à identifier les «carreaux» dans le jeu comme les arbres CutTables. Cela réduit les besoins des Gémeaux pour analyser les captures d’écran avant de prendre des décisions de jeu.

Maintenant, Pokémon est une référence de l’IA semi-sérus au mieux dirait que c’est un test très informatif des capacités d’un modèle. Mais c’est un exemple instructif de la façon dont différentes implémentations d’une référence peuvent influencer les résultats.

Par exemple, Anthropic a signalé deux scores pour son récent modèle de sonnet anthropique 3.7 sur le Benchmark Swe-Bench vérifié, qui est conçu pour évaluer les capacités de codage d’un modèle. Claude 3.7 Sonnet a réalisé une précision de 62,3% sur SWE-Bench vérifiée, mais 70,3% avec un «échafaudage personnalisé» ce développement anthropique.

Plus récemment, Meta a affiné une version de l’un de ses nouveaux modèles, Llama 4 Maverick, pour bien performer nous avons une référence particulière, LM Arena. La version à la vanille du modèle obtient des scores de signification pires sur la même évaluation.

Étant donné que les benchmarks-pokémon incluent des mesures imparfaites pour commencer, les implémentations personnalisées et non standard menacent de brouiller encore plus les eaux. C’est-à-dire qu’il ne semble pas probable qu’il deviendra plus facile de comparer les modèles Asy’re.





Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLes États-Unis font un pas en avant vers les puces et les tarifs pharmaceutiques en utilisant de nouvelles sondes
Next Article Les consommateurs britanniques prévoient « acheter les Britanniques » comme la guerre commerciale de Trump, selon la recherche
John
  • Website

Related Posts

L’application de fond d’écran de MKBHD, Panels, s’arrête

décembre 1, 2025

Les ouvriers du bâtiment profitent du boom de l’IA

décembre 1, 2025

Festivitas vous permet de décorer vos appareils Apple avec des lumières de Noël et de la neige

décembre 1, 2025

L’investissement d’OpenAI dans Thrive Holdings est son dernier accord circulaire

décembre 1, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

La néobanque Web3 apparaît comme la prochaine étape de la finance numérique

décembre 1, 2025

Money 20/20 Dates: Your Guide to the Premier FinTech Event in 2025 and Beyond

décembre 1, 2025

Le Singapore FinTech Festival 2025 a attiré plus de 70 000 participants pour sa 10e édition

novembre 30, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

De nouvelles lunettes approuvées par la FDA pourraient ralentir la myopie chez les enfants

décembre 1, 2025

L’application de fond d’écran de MKBHD, Panels, s’arrête

décembre 1, 2025

L’investisseur « Big Short » Michael Varley déclare que les actions de Tesla sont « ridiculement surévaluées » et ravive l’intérêt à court terme pour Tesla

décembre 1, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.