Anthropic a utilisé Pokémon pour comparer son modèle de nouvelles AI. Oui, vraiment.
Dans un article de blog publié mondain, Anthropic a déclaré qu’il avait testé son dernier modèle, Claude 3.7 Sonnet, sur le Game Boy Classic Pokémon Red. L’entreprise a équipé le modèle avec la mémoire de base, la saisie des pixels d’écran et les appels de fonction pour appuyer sur les boutons et naviguer autour de l’écran, ce qui lui permet de jouer à Pokémon en continu.
Une caractéristique unique de Claude 3.7 Sonnet est sa capacité à tenir dans la «réflexion étendue». Comme O3-Mini d’Openai et R1 de Deepseek, Claude 3.7 Sonnet peut «raisonner» à travers des problèmes difficiles en appliquant plus d’informatique et en prenant plus de temps.
Cette came à portée de main dans Pokémon rouge, apparemment.
Comparé à une version précédente de Claude, Claude 3.0 Sonnet, qui n’a pas quitté la maison à Pallet Town où commence l’histoire, Claude 3.7 Sonnet a réussi à combattre trois chefs de gym Pokémon et a remporté leurs badges.

Maintenant, il n’est pas clair combien l’informatique était nécessaire pour que Claude 3.7 Sonnet atteigne ces jalons – et combien de temps chacun a pris. Anthropic a seulement déclaré que le modèle avait effectué 35 000 actions pour atteindre le dernier chef de gym, Surge.
Il ne le fera sûrement pas avant qu’un développeur entreprenant ne le découvre.
Pokémon Red est plus une référence jouet que tout. Cependant, il y a une longue histoire de jeux à des fins d’analyse comparative de l’IA. Au cours des derniers mois seulement, un certain nombre de nouvelles applications et plates-formes ont surgi pour tester les capacités de jeu des modèles sur des titres allant de Street Fighter à Pictionary.