Même Pokémon n’est pas à l’abri de la controverse d’analyse comparative de l’IA.
Le week-end dernier, un article sur X est devenu viral, affirmant que le dernier modèle de Gémeaux de Google dépasse le modèle de claude phare d’Anthropic dans la trilogie originale du jeu vidéo Pokémon. Selon les témoignages, Gemini était arrivé à Lavendar Town dans le flux Twitch du développeur; Claude était coincé à Mount Moon fin février.
Gemini est littéralement en avance sur Claude ATM à Pokémon après avoir atteint la ville de Lavender
119 Vues en direct uniquement btw, incroyablement Underrald Stream pic.twitter.com/8avsovai4x
– JUICEH (@JU JUH21E8) 10 avril 2025
Mais ce que le poste n’a pas mentionné, c’est que les Gémeaux avaient même une annonce.
Comme les utilisateurs de Reddit l’ont souligné, le développeur qui maintient le flux Gemini a construit une minimap personnalisée qui aide le modèle à identifier les «carreaux» dans le jeu comme les arbres CutTables. Cela réduit les besoins des Gémeaux pour analyser les captures d’écran avant de prendre des décisions de jeu.
Maintenant, Pokémon est une référence de l’IA semi-sérus au mieux dirait que c’est un test très informatif des capacités d’un modèle. Mais c’est un exemple instructif de la façon dont différentes implémentations d’une référence peuvent influencer les résultats.
Par exemple, Anthropic a signalé deux scores pour son récent modèle de sonnet anthropique 3.7 sur le Benchmark Swe-Bench vérifié, qui est conçu pour évaluer les capacités de codage d’un modèle. Claude 3.7 Sonnet a réalisé une précision de 62,3% sur SWE-Bench vérifiée, mais 70,3% avec un «échafaudage personnalisé» ce développement anthropique.
Plus récemment, Meta a affiné une version de l’un de ses nouveaux modèles, Llama 4 Maverick, pour bien performer nous avons une référence particulière, LM Arena. La version à la vanille du modèle obtient des scores de signification pires sur la même évaluation.
Étant donné que les benchmarks-pokémon incluent des mesures imparfaites pour commencer, les implémentations personnalisées et non standard menacent de brouiller encore plus les eaux. C’est-à-dire qu’il ne semble pas probable qu’il deviendra plus facile de comparer les modèles Asy’re.