Gémeaux de Google a paniqué en jouant à Pokémon

Les entreprises de l’IA se battent pour dominer l’industrie, mais parfois elles se battent également dans les gymnases Pokémon.

Alors que Google et Anthropic étudient tous les deux comment leurs derniers modèles d’IA naviguent dans les premiers jeux Pokémon, les résultats peuvent être amusants car ils sont éclairés – et cette fois, Google Deepmind a écrit dans un rapport que Gemini 2.5 Pro cela peut provoquer la performance de l’IA pour expérimenter « une dégradation observable qualitativement dans la capacité de raison du modèle », selon le rapport.

L’analyse comparative de l’IA – ou, le processus de comparaison des performances de différents modèles d’IA – est un art douteux qui fournit souvent peu de contexte pour les capacités réelles d’un modèle donné. Mais certains chercheurs pensent que l’étude de la façon dont les modèles d’IA jouent des jeux vidéo pourraient être utiles (ou, à tout le moins, un peu drôle).

Au cours des derniers mois, deux développeurs non affiliés à Google et Anthropic ont respectif mis en place des flux Twitch appelés « Gemini Plays Pokémon » et « Claude Plays Pokémon », où n’importe qui peut regarder en temps réel alors qu’une IA essaie de naviguer il y a des enfants il y a des années.

Chaque flux affiche le processus de «raisonnement» de A – ou, une traduction du langage naturel de la façon dont l’IA évalue un problème et arrive à une réponse – nous donnant un aperçu de la façon dont ces modèles fonctionnent.

Bien que les progrès de ces modèles d’IA soient impressionnants, ils ne sont toujours pas très bons pour jouer à Pokémon. Il faut des centaines d’heures aux Gémeaux pour raisonner à travers un jeu qu’un enfant pourrait terminer en exponentiellement moins de temps.

Ce qui est intéressant de regarder une AI naviguer dans un jeu Pokémon, ce n’est pas tant son temps d’achèvement, mais plutôt comment il se comporte en cours de route.

«Au cours de la course du Playyrough, Gemini 2.5 Pro entre dans diverses situations qui font que le modèle simule la« panique »», indique le rapport.

Cet état de «panique» peut entraîner la pire des performances du modèle, car l’IA peut soudainement cesser d’utiliser certains outils à ses dispositions pour une étendue de gameplay. Bien que l’IA ne pense pas ou ne ressent pas d’émotion, ses actions imitent la manière dont un humain pourrait prendre des décisions pauvres et hâtives lorsqu’elles sont soumises à un stress – un réactif fascinant, mais inébranlable.

« Ce comportement s’est produit dans suffisamment de cas distincts pour que les membres du chat Twitch aient activement remarqué lorsqu’il se produit », indique le rapport.

Claude a également présenté des comportements curieux à son époque à travers Kanto. Dans un cas, l’IA a repris le modèle qui sera hors de santé, le personnage du joueur «blanchira» et reviendra dans un centre Pokémon.

Lorsque Claude est resté coincé dans la grotte de la lune du Mt., il a émis l’hypothèse à tort que si elle faisait intentionnellement tous ses Pokémon à s’évanouir, il est toujours transporté à travers la grotte vers le Pokémon Center dans la ville suivante.

Cependant, ce n’est pas ainsi que le jeu fonctionne. Lorsque tous vos Pokémon meurent, vous revenez dans le centre Pokémon que vous avez utilisé plus récemment, plutôt que les plus proches géographiquement. Les téléspectateurs ont regardé avec horreur l’IA essayant essentiellement de se suicider dans le jeu.

Malgré ses lacunes, il existe plusieurs façons dont l’IA peut surpasser les joueurs humains. À partir de la libération de Gemini 2.5 Pro, l’IA est capable de résoudre des énigmes avec une précision impressionnante.

Avec une assistance humaine, les outils agentiques créés par l’IA – instances rapides de tâches TOCIFI de Gemini 2.5 Pro ont préparé – pour résoudre les puzzles de rocher du jeu et trouver des itinéraires efficaces pour atteindre les ATT.

« Avec seulement une invite décrivant la physique du rocher et une description de la façon de vérifier un chemin valide, Gemini 2.5 Pro est capable de faire un seul coup de ces puzzles de rocher complexes, qui sont nécessaires pour progresser par Victory Road », indique le rapport.

Sale Gemini 2.5 Pro a fait une grande partie du travail dans la création d’outils en soi, Google théorise que le modèle actuel peut être capable de créer des outils avec une intervention humaine. Qui sait, peut-être que Gemini se thérapeura en créant un module «Don’t Panic».

Source link

What's Hot

L’inflation britannique est tombée à 3,4% en mai

Après Shopify Boughr, sa dernière startup, Birk Jernström veut aider les développeurs à construire des licornes One-Personns

La définition des «produits chimiques éternels» est un travail exclusivement pour la science.

Gémeaux de Google a paniqué en jouant à Pokémon

Après Shopify Boughr, sa dernière startup, Birk Jernström veut aider les développeurs à construire des licornes One-Personns

La police a fermé la fête de ClulEly, la startup « Cheat at Everhthing »

Sam Altman dit que Meta a essayé et n’a pas réussi à braconner le talent d’Openai avec une offre de 100 millions de dollars

Le contrat DoD de 200 millions de dollars d’Openai pourrait serrer Frenemy Microsoft

Augmentim FinTech plc – mise à jour du jour des marchés du capital

Meta) Protégez votre licence de fintech canadienne et renommée pour chaîner Payx

Saswat Finance fera une mise à l’échelle des opérations agri-finch en levant 2,6 millions de dollars avant la série

Top Insights

L’inflation britannique est tombée à 3,4% en mai

Après Shopify Boughr, sa dernière startup, Birk Jernström veut aider les développeurs à construire des licornes One-Personns

La définition des «produits chimiques éternels» est un travail exclusivement pour la science.

What's Hot

Gémeaux de Google a paniqué en jouant à Pokémon

Related Posts

Subscribe to Updates