Excellente nouvelle pour xAI : Grok est désormais assez doué pour répondre aux questions sur Baldur's Gate

Différents laboratoires d’IA ont des priorités différentes. Par exemple, OpenAI se concentre traditionnellement sur les utilisateurs grand public, tandis que son rival Anthropic a tendance à cibler les entreprises. La xAI d’Elon Musk, comme nous l’avons découvert récemment, met particulièrement l’accent sur les solutions de jeux vidéo.

Vendredi, Grace Kay de Business Insider a publié un rapport détaillé et approfondi sur xAI, la startup d’IA récemment acquise par SpaceX, avec un accent particulier sur la façon dont Musk rend la vie difficile aux employés. Mais cette anecdote particulière m’a marqué :

L’année dernière, la sortie d’un modèle a été retardée de plusieurs jours parce que Musk n’était pas satisfait de la façon dont le chatbot répondait à des questions détaillées sur le jeu vidéo « Baldur’s Gate », selon des personnes proches du dossier. Des ingénieurs de haut niveau ont été retirés d’autres projets pour améliorer les réponses avant le lancement, ont-ils indiqué.

Bien sûr, vous pouvez imaginer la frustration de tout ingénieur respecté et expérimenté qui se présente au travail en pensant qu’il va s’attaquer à des problèmes fondamentaux de connaissances et d’intelligence artificielle, pour ensuite se laisser distraire et aider un homme de 54 ans à vaincre son jeu vidéo. Mais l’anecdote soulève une question encore plus pressante : Musk a-t-il fini par acquérir les compétences de jeu qu’il souhaitait ?

Pour répondre à cette question, notre passionné de RPG, Ram Iyer, a rassemblé une série de cinq questions générales sur Baldur’s Gate, que nous avons confrontées à xAI et aux trois modèles majeurs dans une sorte de quasi-benchmark que j’ai décidé d’appeler BaldurBench.

Dans un souci de transparence journalistique, j’ai rendu publiques toutes les transcriptions des discussions, vous pouvez donc les voir ici : Grok, ChatGPT, Claude et Gemini.

Tout d’abord, la bonne nouvelle : Grok donne en fait de très bonnes informations. Ses réponses étaient un peu denses avec le jargon des joueurs – « sauvegarde » au lieu de sauvegarde et « DPS » au lieu de dégâts – mais les réponses étaient à la fois utiles et bien informées, à condition que vous sachiez de quoi il s’agissait. Grok aime aussi beaucoup les tables et la théorie, ce à quoi on peut s’attendre.

Il existe de nombreux guides Baldur’s Gate et les modèles s’inspirent généralement des mêmes, les plus grandes différences étaient donc stylistiques. ChatGPT préfère les listes à puces et les fragments de phrases, tandis que Gemini aime mettre en gras les mots importants.

Événement Techcrunch

Boston, Massachusetts
|
9 juin 2026

La plus grande surprise a été Claude, qui avait particulièrement peur de me donner des informations qui pourraient gâcher mon expérience du jeu. Lorsque j’ai posé des questions sur les bonnes compositions de fête, il a clôturé les conseils en disant « ne vous stressez pas trop et jouez simplement ce qui vous semble amusant ». Merci Claude!

Il est important de garder à l’esprit qu’il s’agit d’un domaine dont nous savons (grâce aux rapports de Business Insider) que xAI s’est spécifiquement concentré sur l’atteinte de la parité. Il ne faut donc pas trop interpréter le fait qu’après le sprint rapporté, les conseils de Grok se sont avérés à peu près les mêmes que ceux des autres modèles. Pourtant, il est bon de savoir que xAI peut le faire fonctionner s’il essaie.

Source link

What's Hot

L’Europe repousse la guerre des puces de Washington

L’ancien patron d’Infosys a une nouvelle startup qui veut défier le monde des services informatiques

Dépasser le projet pilote : pourquoi tant de projets de tests d’IA ont du mal à évoluer

Excellente nouvelle pour xAI : Grok est désormais assez doué pour répondre aux questions sur Baldur’s Gate

L’Europe repousse la guerre des puces de Washington

L’ancien patron d’Infosys a une nouvelle startup qui veut défier le monde des services informatiques

L’action Cerebras plonge après les bénéfices alors que le PDG déclare que les perspectives de marge ont été mal comprises

L’IA était censée tuer les emplois d’ingénieur, mais de nouvelles données suggèrent qu’ils sont les plus résilients

Pourquoi la prochaine licorne fintech pourrait naître d’une idée « ennuyeuse »

CSI lance un centre d’intégration ouvert pour fournir aux banques communautaires transparence et contrôle sur l’intégration des technologies financières

Influence étrangère croissante dans le secteur fintech indien : GTRI

Top Insights

L’Europe repousse la guerre des puces de Washington

L’ancien patron d’Infosys a une nouvelle startup qui veut défier le monde des services informatiques

Dépasser le projet pilote : pourquoi tant de projets de tests d’IA ont du mal à évoluer

What's Hot

Excellente nouvelle pour xAI : Grok est désormais assez doué pour répondre aux questions sur Baldur’s Gate

Related Posts

Subscribe to Updates