Un lycée a construit un site Web qui vous permet de défier les modèles d'IA à une construction de minecraft

Alors que les techniques d’analyse comparative d’IA conventionnelles se sont révélées inadéquates, les constructeurs d’IA se tournent vers des moyens plus créatifs d’évaluer les capacités des modèles d’IA génératifs. Pour un groupe de développeurs, c’est Minecraft, le jeu de construction de sandbox appartenant à Microsoft.

Le site Web Minecraft Benchmark (ou MC-Bench) a été développé en collaboration pour s’opposer aux modèles d’IA les uns contre les autres dans des défis en tête-à-tête pour répondre aux invites avec les créations Minecraft. Les utilisateurs peuvent votion sur quel modèle a fait un meilleur travail, et ce n’est qu’après avoir voté qu’ils peuvent voir quelle IA a fait chaque construction de minecraft.

Crédits Image: Minecraft Benchmark (Ouvrir dans une nouvelle fenêtre)

Pour Adi Singh, le élève de 12e année qui a commencé MC-Bench, la valeur de Minecraft n’est pas tant le jeu lui-même, mais la familiarité que les gens ont avec tout cela, c’est le jeu vidéo le plus vendu de tous les temps. Même pour les personnes qui n’ont pas joué au jeu, il est toujours possible d’évaluer quelle représentation en blocs d’un ananas est mieux réalisée.

« Minecraft permet aux gens de voir les progrès (du développement de l’IA) beaucoup plus facilement », a déclaré Singh à TechCrunch. «Les gens sont habitués à Minecraft, utilisent le look et l’ambiance.»

MC-Bench répertorie actuellement huit personnes en tant que contributeurs bénévoles. Anthropic, Google, Openai et Alibaba ont subventionné l’utilisation par le projet de leur produit pour exécuter des invites de référence, selon le site Web de MC-Bench, mais les sociétés ne sont pas affiliées par ailleurs.

« Actuellement, nous faisons simplement des constructions simples pour réfléchir à la distance où nous venons de l’ère GPT-3, mais (nous) nous voyons évoluer vers ces plans de forme longue et ces tâches orientées vers les objectifs », a déclaré Singh. « Les jeux pourraient bien être un raisonnement agentique moyen à tester qui est plus sûr que dans la vie réelle et plus contrôlable à des fins de test, ce qui le rend plus idéal à mes yeux. »

D’autres jeux comme Pokémon Red, Street Fighter et Pictionary ont été utilisés comme références expérimentales pour l’IA, en partie parce que l’art de l’analyse comparative est notoirement délicat.

Les chercheurs testent souvent les modèles d’IA sur des évaluations standardisées, mais bon nombre d’entre elles des tests offrent à l’IA un avantage sur le terrain. Parce que la façon dont ils sont formés, les modèles sont naturellement doués dans certains types étroits de problèmes de sursis et de problèmes qui nécessitent une mémorisation par cœur ou une extrapolation de base.

En termes simples, il est difficile de glaner ce que cela signifie que le GPT-4 d’Openai peut marquer dans le 88e centile sur le LSAT, mais ne peut pas discerner combien de Rs sont dans le mot «fraise». Le sonnet d’Anthropic Claude 3.7 a atteint une précision de 62,3% sur une référence standardisée en génie logiciel, mais il est pire de jouer à Pokémon que la plupart des enfants de cinq ans.

MC-Bench est techniquement une référence de programmation, car les modèles sont invités à écrire du code pour créer la construction rapide, comme «Frosty the Snowman» ou «une charmante cabane de plage tropicale sur une rive sablonneuse vierge.

Mais il est plus facile pour la plupart des utilisateurs de MC-Bench d’évaluer où Snowman Lookman regarde que creuser dans le code, ce qui donne au projet un attrait plus large et donc le potentiel de collecter plus de données sur ces modèles constituait un meilleur score.

Dont les scores aiment beaucoup une utilité est à débattre, de race. Singh définit la série qu’ils sont un signal fort, cependant.

« Le classement actuel se reflète assez étroitement à ma propre expérience de l’utilisation de ces modèles, qui est beaucoup de références de texte pur », a déclaré Singh. « Peut-être que (MC-Bench) pourrait être habitué aux entreprises pour savoir si elles se dirigent dans la bonne direction. »

Source link

What's Hot

« L’ère de l’indépendance de la Fed touche à sa fin », prévient l’avocat de Cook

Rubio dit « Je ne suis pas content » de la grève d’Israël contre le Qatar, nos alliés que Trump a ciblé les agents du Hamas

Charlie Kirk Assassinat: le directeur du FBI a mis en colère d’être perçu comme incapable de continuer à lui fournir des informations

Un lycée a construit un site Web qui vous permet de défier les modèles d’IA à une construction de minecraft

Le président du conseil d’administration de Tesla appelle le débat sur le pack de paiement de 1 t $ d’Elon Musk ‘Un peu bizarre’

L’union pilote exhorte la FAA à rejeter le plan de grasion des nuages de drones de Rainmaker du Rainmaker

Les législateurs de Californie adoptent l’IA de la sécurité du projet de loi SB 53 – mais Newsom pourrait encore opposer son veto

3 erreurs financières comme les nouveaux entrepreneurs font lors de la planification de l’avenir de leurs enfants

Fichiers LendBuzz FinTech Lendch FinTech pour les introductions en bourse

Comment les crypto-monnaies, les fintechs et l’IA peuvent remodeler la géopolitique mondiale de l’avenir

APAC offre un grand potentiel de croissance, mais le succès nécessite une stratégie de paiement localisée

Top Insights

« L’ère de l’indépendance de la Fed touche à sa fin », prévient l’avocat de Cook

Rubio dit « Je ne suis pas content » de la grève d’Israël contre le Qatar, nos alliés que Trump a ciblé les agents du Hamas

Charlie Kirk Assassinat: le directeur du FBI a mis en colère d’être perçu comme incapable de continuer à lui fournir des informations

What's Hot

Un lycée a construit un site Web qui vous permet de défier les modèles d’IA à une construction de minecraft

Related Posts

Subscribe to Updates