Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Pourquoi Roylley’s Roy Lee ne transpire pas les détecteurs de triche

juillet 10, 2025

Les efforts de l’IA d’Apple sont « de battre au milieu de la nuit », et la seule façon dont ils peuvent cesser de prendre du retard est de prendre confusion, explique l’analyste Dan Ives.

juillet 9, 2025

Moguls sportifs et divertissements accusés d’avoir conclu des offres secrètes en arrière-salle sur un projet d’arène de 338 millions de dollars

juillet 9, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Les débats sur l’analyse comparative de l’IA ont atteint Pokémon
Startups

Les débats sur l’analyse comparative de l’IA ont atteint Pokémon

JohnBy Johnavril 14, 2025Aucun commentaire2 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Même Pokémon n’est pas à l’abri de la controverse d’analyse comparative de l’IA.

Le week-end dernier, un article sur X est devenu viral, affirmant que le dernier modèle de Gémeaux de Google dépasse le modèle de claude phare d’Anthropic dans la trilogie originale du jeu vidéo Pokémon. Selon les témoignages, Gemini était arrivé à Lavendar Town dans le flux Twitch du développeur; Claude était coincé à Mount Moon fin février.

Gemini est littéralement en avance sur Claude ATM à Pokémon après avoir atteint la ville de Lavender

119 Vues en direct uniquement btw, incroyablement Underrald Stream pic.twitter.com/8avsovai4x

– JUICEH (@JU JUH21E8) 10 avril 2025

Mais ce que le poste n’a pas mentionné, c’est que les Gémeaux avaient même une annonce.

Comme les utilisateurs de Reddit l’ont souligné, le développeur qui maintient le flux Gemini a construit une minimap personnalisée qui aide le modèle à identifier les «carreaux» dans le jeu comme les arbres CutTables. Cela réduit les besoins des Gémeaux pour analyser les captures d’écran avant de prendre des décisions de jeu.

Maintenant, Pokémon est une référence de l’IA semi-sérus au mieux dirait que c’est un test très informatif des capacités d’un modèle. Mais c’est un exemple instructif de la façon dont différentes implémentations d’une référence peuvent influencer les résultats.

Par exemple, Anthropic a signalé deux scores pour son récent modèle de sonnet anthropique 3.7 sur le Benchmark Swe-Bench vérifié, qui est conçu pour évaluer les capacités de codage d’un modèle. Claude 3.7 Sonnet a réalisé une précision de 62,3% sur SWE-Bench vérifiée, mais 70,3% avec un «échafaudage personnalisé» ce développement anthropique.

Plus récemment, Meta a affiné une version de l’un de ses nouveaux modèles, Llama 4 Maverick, pour bien performer nous avons une référence particulière, LM Arena. La version à la vanille du modèle obtient des scores de signification pires sur la même évaluation.

Étant donné que les benchmarks-pokémon incluent des mesures imparfaites pour commencer, les implémentations personnalisées et non standard menacent de brouiller encore plus les eaux. C’est-à-dire qu’il ne semble pas probable qu’il deviendra plus facile de comparer les modèles Asy’re.





Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLes États-Unis font un pas en avant vers les puces et les tarifs pharmaceutiques en utilisant de nouvelles sondes
Next Article Les consommateurs britanniques prévoient « acheter les Britanniques » comme la guerre commerciale de Trump, selon la recherche
John
  • Website

Related Posts

Pourquoi Roylley’s Roy Lee ne transpire pas les détecteurs de triche

juillet 10, 2025

Microsoft partage 500 millions de dollars en épargne-AI en interne après avoir coupé 9 000 emplois

juillet 9, 2025

Le législateur californien derrière SB 1047 Regnites Poussez pour les rapports de sécurité obligatoire de l’IA mandaté

juillet 9, 2025

Steve Davis a quitté Doge en mai, mais les responsables disent qu’il dirige toujours le spectacle

juillet 9, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Black Dragon Capital℠add New Financial Services conseiller pour approfondir votre liste de leadership fintech

juillet 9, 2025

Le secteur fintech prend en charge les règles plus strictes concernant le risque de jeu en ligne

juillet 9, 2025

La startup fintech axée sur le NRI augmente 5 millions de dollars, dirigée par Elevation Capital

juillet 8, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Pourquoi Roylley’s Roy Lee ne transpire pas les détecteurs de triche

juillet 10, 2025

Les efforts de l’IA d’Apple sont « de battre au milieu de la nuit », et la seule façon dont ils peuvent cesser de prendre du retard est de prendre confusion, explique l’analyste Dan Ives.

juillet 9, 2025

Moguls sportifs et divertissements accusés d’avoir conclu des offres secrètes en arrière-salle sur un projet d’arène de 338 millions de dollars

juillet 9, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.