Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Sam Altman affirme que l’IA dépassera l’intelligence humaine d’ici 2030. D’autres milliardaires affirment que cela pourrait être plus tôt.

juin 21, 2026

Daron Acemoglu, lauréat du prix Nobel, parle du discours « sans cervelle » sur l’IA, du mythe du capitalisme et de la révolution de la génération Z

juin 21, 2026

Pourquoi les costumes beiges restent un point chaud politique et mode aux États-Unis

juin 21, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Les débats sur l’analyse comparative de l’IA ont atteint Pokémon
Startups

Les débats sur l’analyse comparative de l’IA ont atteint Pokémon

JohnBy Johnavril 14, 2025Aucun commentaire2 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Même Pokémon n’est pas à l’abri de la controverse d’analyse comparative de l’IA.

Le week-end dernier, un article sur X est devenu viral, affirmant que le dernier modèle de Gémeaux de Google dépasse le modèle de claude phare d’Anthropic dans la trilogie originale du jeu vidéo Pokémon. Selon les témoignages, Gemini était arrivé à Lavendar Town dans le flux Twitch du développeur; Claude était coincé à Mount Moon fin février.

Gemini est littéralement en avance sur Claude ATM à Pokémon après avoir atteint la ville de Lavender

119 Vues en direct uniquement btw, incroyablement Underrald Stream pic.twitter.com/8avsovai4x

– JUICEH (@JU JUH21E8) 10 avril 2025

Mais ce que le poste n’a pas mentionné, c’est que les Gémeaux avaient même une annonce.

Comme les utilisateurs de Reddit l’ont souligné, le développeur qui maintient le flux Gemini a construit une minimap personnalisée qui aide le modèle à identifier les «carreaux» dans le jeu comme les arbres CutTables. Cela réduit les besoins des Gémeaux pour analyser les captures d’écran avant de prendre des décisions de jeu.

Maintenant, Pokémon est une référence de l’IA semi-sérus au mieux dirait que c’est un test très informatif des capacités d’un modèle. Mais c’est un exemple instructif de la façon dont différentes implémentations d’une référence peuvent influencer les résultats.

Par exemple, Anthropic a signalé deux scores pour son récent modèle de sonnet anthropique 3.7 sur le Benchmark Swe-Bench vérifié, qui est conçu pour évaluer les capacités de codage d’un modèle. Claude 3.7 Sonnet a réalisé une précision de 62,3% sur SWE-Bench vérifiée, mais 70,3% avec un «échafaudage personnalisé» ce développement anthropique.

Plus récemment, Meta a affiné une version de l’un de ses nouveaux modèles, Llama 4 Maverick, pour bien performer nous avons une référence particulière, LM Arena. La version à la vanille du modèle obtient des scores de signification pires sur la même évaluation.

Étant donné que les benchmarks-pokémon incluent des mesures imparfaites pour commencer, les implémentations personnalisées et non standard menacent de brouiller encore plus les eaux. C’est-à-dire qu’il ne semble pas probable qu’il deviendra plus facile de comparer les modèles Asy’re.





Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLes États-Unis font un pas en avant vers les puces et les tarifs pharmaceutiques en utilisant de nouvelles sondes
Next Article Les consommateurs britanniques prévoient « acheter les Britanniques » comme la guerre commerciale de Trump, selon la recherche
John
  • Website

Related Posts

Meredith Whittaker de Signal veut que vous vous souveniez que les chatbots IA « ne sont pas vos amis »

juin 20, 2026

In the Weights est votre nouvelle recherche de vanité centrée sur l’IA

juin 20, 2026

Le pari aberrant du Founders Fund sur les poissons tués sans cruauté

juin 20, 2026

Chaque nouvelle fonctionnalité iOS 27 qui mérite d’être connue

juin 20, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

L’introduction en bourse GMP d’aujourd’hui : l’abonnement à l’introduction en bourse de Turtlemint Fintech commence. Fourchette de prix, avis, etc.

juin 18, 2026

La société fintech locale Aleta lance une carte de débit Visa sur le thème de Sanrio

juin 18, 2026

La société fintech locale Aleta lance une carte de débit Visa sur le thème de Sanrio

juin 18, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Sam Altman affirme que l’IA dépassera l’intelligence humaine d’ici 2030. D’autres milliardaires affirment que cela pourrait être plus tôt.

juin 21, 2026

Daron Acemoglu, lauréat du prix Nobel, parle du discours « sans cervelle » sur l’IA, du mythe du capitalisme et de la révolution de la génération Z

juin 21, 2026

Pourquoi les costumes beiges restent un point chaud politique et mode aux États-Unis

juin 21, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.