Anthropic a utilisé Pokémon pour comparer son nouveau modèle d'IA

Anthropic a utilisé Pokémon pour comparer son modèle de nouvelles AI. Oui, vraiment.

Dans un article de blog publié mondain, Anthropic a déclaré qu’il avait testé son dernier modèle, Claude 3.7 Sonnet, sur le Game Boy Classic Pokémon Red. L’entreprise a équipé le modèle avec la mémoire de base, la saisie des pixels d’écran et les appels de fonction pour appuyer sur les boutons et naviguer autour de l’écran, ce qui lui permet de jouer à Pokémon en continu.

Une caractéristique unique de Claude 3.7 Sonnet est sa capacité à tenir dans la «réflexion étendue». Comme O3-Mini d’Openai et R1 de Deepseek, Claude 3.7 Sonnet peut «raisonner» à travers des problèmes difficiles en appliquant plus d’informatique et en prenant plus de temps.

Cette came à portée de main dans Pokémon rouge, apparemment.

Comparé à une version précédente de Claude, Claude 3.0 Sonnet, qui n’a pas quitté la maison à Pallet Town où commence l’histoire, Claude 3.7 Sonnet a réussi à combattre trois chefs de gym Pokémon et a remporté leurs badges.

Rouge Pokémon anthropique — Crédits Image: anthropique

Maintenant, il n’est pas clair combien l’informatique était nécessaire pour que Claude 3.7 Sonnet atteigne ces jalons – et combien de temps chacun a pris. Anthropic a seulement déclaré que le modèle avait effectué 35 000 actions pour atteindre le dernier chef de gym, Surge.

Il ne le fera sûrement pas avant qu’un développeur entreprenant ne le découvre.

Pokémon Red est plus une référence jouet que tout. Cependant, il y a une longue histoire de jeux à des fins d’analyse comparative de l’IA. Au cours des derniers mois seulement, un certain nombre de nouvelles applications et plates-formes ont surgi pour tester les capacités de jeu des modèles sur des titres allant de Street Fighter à Pictionary.

Source link

What's Hot

Les régulateurs s’inscrivent à Mega pour 8 milliards de dollars de fusion Paramount avec Skydance

Comment l’application de livraison alimentaire AY Combinator a utilisé Tiktok pour monter dans l’App Store

VC Victor Lazarte laisse Benchmark pour lancer sa propre entreprise

Anthropic a utilisé Pokémon pour comparer son nouveau modèle d’IA

Comment l’application de livraison alimentaire AY Combinator a utilisé Tiktok pour monter dans l’App Store

VC Victor Lazarte laisse Benchmark pour lancer sa propre entreprise

Intel continue de faire du pull sur ses projets de fabrication

X pour tester en utilisant des notes de communauté pour trouver les articles que tout le monde aime

PalmPay tient la place parmi les 300 meilleures sociétés fintech au monde

Tazapay 2025 nommé la liste des meilleures sociétés de fintech du CNBC – Theprint – AnipressReleases

Comment les ingénieurs indiens aident à transformer cette fintech mondiale

Top Insights

Les régulateurs s’inscrivent à Mega pour 8 milliards de dollars de fusion Paramount avec Skydance

Comment l’application de livraison alimentaire AY Combinator a utilisé Tiktok pour monter dans l’App Store

VC Victor Lazarte laisse Benchmark pour lancer sa propre entreprise

What's Hot

Anthropic a utilisé Pokémon pour comparer son nouveau modèle d’IA

Related Posts

Subscribe to Updates