Différents laboratoires d’IA ont des priorités différentes. Par exemple, OpenAI se concentre traditionnellement sur les utilisateurs grand public, tandis que son rival Anthropic a tendance à cibler les entreprises. La xAI d’Elon Musk, comme nous l’avons découvert récemment, met particulièrement l’accent sur les solutions de jeux vidéo.
Vendredi, Grace Kay de Business Insider a publié un rapport détaillé et approfondi sur xAI, la startup d’IA récemment acquise par SpaceX, avec un accent particulier sur la façon dont Musk rend la vie difficile aux employés. Mais cette anecdote particulière m’a marqué :
L’année dernière, la sortie d’un modèle a été retardée de plusieurs jours parce que Musk n’était pas satisfait de la façon dont le chatbot répondait à des questions détaillées sur le jeu vidéo « Baldur’s Gate », selon des personnes proches du dossier. Des ingénieurs de haut niveau ont été retirés d’autres projets pour améliorer les réponses avant le lancement, ont-ils indiqué.
Bien sûr, vous pouvez imaginer la frustration de tout ingénieur respecté et expérimenté qui se présente au travail en pensant qu’il va s’attaquer à des problèmes fondamentaux de connaissances et d’intelligence artificielle, pour ensuite se laisser distraire et aider un homme de 54 ans à vaincre son jeu vidéo. Mais l’anecdote soulève une question encore plus pressante : Musk a-t-il fini par acquérir les compétences de jeu qu’il souhaitait ?
Pour répondre à cette question, notre passionné de RPG, Ram Iyer, a rassemblé une série de cinq questions générales sur Baldur’s Gate, que nous avons confrontées à xAI et aux trois modèles majeurs dans une sorte de quasi-benchmark que j’ai décidé d’appeler BaldurBench.
Dans un souci de transparence journalistique, j’ai rendu publiques toutes les transcriptions des discussions, vous pouvez donc les voir ici : Grok, ChatGPT, Claude et Gemini.
Tout d’abord, la bonne nouvelle : Grok donne en fait de très bonnes informations. Ses réponses étaient un peu denses avec le jargon des joueurs – « sauvegarde » au lieu de sauvegarde et « DPS » au lieu de dégâts – mais les réponses étaient à la fois utiles et bien informées, à condition que vous sachiez de quoi il s’agissait. Grok aime aussi beaucoup les tables et la théorie, ce à quoi on peut s’attendre.
Il existe de nombreux guides Baldur’s Gate et les modèles s’inspirent généralement des mêmes, les plus grandes différences étaient donc stylistiques. ChatGPT préfère les listes à puces et les fragments de phrases, tandis que Gemini aime mettre en gras les mots importants.
Événement Techcrunch
Boston, Massachusetts
|
9 juin 2026
La plus grande surprise a été Claude, qui avait particulièrement peur de me donner des informations qui pourraient gâcher mon expérience du jeu. Lorsque j’ai posé des questions sur les bonnes compositions de fête, il a clôturé les conseils en disant « ne vous stressez pas trop et jouez simplement ce qui vous semble amusant ». Merci Claude!
Il est important de garder à l’esprit qu’il s’agit d’un domaine dont nous savons (grâce aux rapports de Business Insider) que xAI s’est spécifiquement concentré sur l’atteinte de la parité. Il ne faut donc pas trop interpréter le fait qu’après le sprint rapporté, les conseils de Grok se sont avérés à peu près les mêmes que ceux des autres modèles. Pourtant, il est bon de savoir que xAI peut le faire fonctionner s’il essaie.

