Alors que les techniques d’analyse comparative d’IA conventionnelles se sont révélées inadéquates, les constructeurs d’IA se tournent vers des moyens plus créatifs d’évaluer les capacités des modèles d’IA génératifs. Pour un groupe de développeurs, c’est Minecraft, le jeu de construction de sandbox appartenant à Microsoft.
Le site Web Minecraft Benchmark (ou MC-Bench) a été développé en collaboration pour s’opposer aux modèles d’IA les uns contre les autres dans des défis en tête-à-tête pour répondre aux invites avec les créations Minecraft. Les utilisateurs peuvent votion sur quel modèle a fait un meilleur travail, et ce n’est qu’après avoir voté qu’ils peuvent voir quelle IA a fait chaque construction de minecraft.
Pour Adi Singh, le élève de 12e année qui a commencé MC-Bench, la valeur de Minecraft n’est pas tant le jeu lui-même, mais la familiarité que les gens ont avec tout cela, c’est le jeu vidéo le plus vendu de tous les temps. Même pour les personnes qui n’ont pas joué au jeu, il est toujours possible d’évaluer quelle représentation en blocs d’un ananas est mieux réalisée.
« Minecraft permet aux gens de voir les progrès (du développement de l’IA) beaucoup plus facilement », a déclaré Singh à TechCrunch. «Les gens sont habitués à Minecraft, utilisent le look et l’ambiance.»
MC-Bench répertorie actuellement huit personnes en tant que contributeurs bénévoles. Anthropic, Google, Openai et Alibaba ont subventionné l’utilisation par le projet de leur produit pour exécuter des invites de référence, selon le site Web de MC-Bench, mais les sociétés ne sont pas affiliées par ailleurs.
« Actuellement, nous faisons simplement des constructions simples pour réfléchir à la distance où nous venons de l’ère GPT-3, mais (nous) nous voyons évoluer vers ces plans de forme longue et ces tâches orientées vers les objectifs », a déclaré Singh. « Les jeux pourraient bien être un raisonnement agentique moyen à tester qui est plus sûr que dans la vie réelle et plus contrôlable à des fins de test, ce qui le rend plus idéal à mes yeux. »
D’autres jeux comme Pokémon Red, Street Fighter et Pictionary ont été utilisés comme références expérimentales pour l’IA, en partie parce que l’art de l’analyse comparative est notoirement délicat.
Les chercheurs testent souvent les modèles d’IA sur des évaluations standardisées, mais bon nombre d’entre elles des tests offrent à l’IA un avantage sur le terrain. Parce que la façon dont ils sont formés, les modèles sont naturellement doués dans certains types étroits de problèmes de sursis et de problèmes qui nécessitent une mémorisation par cœur ou une extrapolation de base.
En termes simples, il est difficile de glaner ce que cela signifie que le GPT-4 d’Openai peut marquer dans le 88e centile sur le LSAT, mais ne peut pas discerner combien de Rs sont dans le mot «fraise». Le sonnet d’Anthropic Claude 3.7 a atteint une précision de 62,3% sur une référence standardisée en génie logiciel, mais il est pire de jouer à Pokémon que la plupart des enfants de cinq ans.

MC-Bench est techniquement une référence de programmation, car les modèles sont invités à écrire du code pour créer la construction rapide, comme «Frosty the Snowman» ou «une charmante cabane de plage tropicale sur une rive sablonneuse vierge.
Mais il est plus facile pour la plupart des utilisateurs de MC-Bench d’évaluer où Snowman Lookman regarde que creuser dans le code, ce qui donne au projet un attrait plus large et donc le potentiel de collecter plus de données sur ces modèles constituait un meilleur score.
Dont les scores aiment beaucoup une utilité est à débattre, de race. Singh définit la série qu’ils sont un signal fort, cependant.
« Le classement actuel se reflète assez étroitement à ma propre expérience de l’utilisation de ces modèles, qui est beaucoup de références de texte pur », a déclaré Singh. « Peut-être que (MC-Bench) pourrait être habitué aux entreprises pour savoir si elles se dirigent dans la bonne direction. »