Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

« L’ère de l’indépendance de la Fed touche à sa fin », prévient l’avocat de Cook

septembre 13, 2025

Rubio dit « Je ne suis pas content » de la grève d’Israël contre le Qatar, nos alliés que Trump a ciblé les agents du Hamas

septembre 13, 2025

Charlie Kirk Assassinat: le directeur du FBI a mis en colère d’être perçu comme incapable de continuer à lui fournir des informations

septembre 13, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Un lycée a construit un site Web qui vous permet de défier les modèles d’IA à une construction de minecraft
Startups

Un lycée a construit un site Web qui vous permet de défier les modèles d’IA à une construction de minecraft

JohnBy Johnmars 20, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Alors que les techniques d’analyse comparative d’IA conventionnelles se sont révélées inadéquates, les constructeurs d’IA se tournent vers des moyens plus créatifs d’évaluer les capacités des modèles d’IA génératifs. Pour un groupe de développeurs, c’est Minecraft, le jeu de construction de sandbox appartenant à Microsoft.

Le site Web Minecraft Benchmark (ou MC-Bench) a été développé en collaboration pour s’opposer aux modèles d’IA les uns contre les autres dans des défis en tête-à-tête pour répondre aux invites avec les créations Minecraft. Les utilisateurs peuvent votion sur quel modèle a fait un meilleur travail, et ce n’est qu’après avoir voté qu’ils peuvent voir quelle IA a fait chaque construction de minecraft.

Crédits Image: Minecraft Benchmark (Ouvrir dans une nouvelle fenêtre)

Pour Adi Singh, le élève de 12e année qui a commencé MC-Bench, la valeur de Minecraft n’est pas tant le jeu lui-même, mais la familiarité que les gens ont avec tout cela, c’est le jeu vidéo le plus vendu de tous les temps. Même pour les personnes qui n’ont pas joué au jeu, il est toujours possible d’évaluer quelle représentation en blocs d’un ananas est mieux réalisée.

« Minecraft permet aux gens de voir les progrès (du développement de l’IA) beaucoup plus facilement », a déclaré Singh à TechCrunch. «Les gens sont habitués à Minecraft, utilisent le look et l’ambiance.»

MC-Bench répertorie actuellement huit personnes en tant que contributeurs bénévoles. Anthropic, Google, Openai et Alibaba ont subventionné l’utilisation par le projet de leur produit pour exécuter des invites de référence, selon le site Web de MC-Bench, mais les sociétés ne sont pas affiliées par ailleurs.

« Actuellement, nous faisons simplement des constructions simples pour réfléchir à la distance où nous venons de l’ère GPT-3, mais (nous) nous voyons évoluer vers ces plans de forme longue et ces tâches orientées vers les objectifs », a déclaré Singh. « Les jeux pourraient bien être un raisonnement agentique moyen à tester qui est plus sûr que dans la vie réelle et plus contrôlable à des fins de test, ce qui le rend plus idéal à mes yeux. »

D’autres jeux comme Pokémon Red, Street Fighter et Pictionary ont été utilisés comme références expérimentales pour l’IA, en partie parce que l’art de l’analyse comparative est notoirement délicat.

Les chercheurs testent souvent les modèles d’IA sur des évaluations standardisées, mais bon nombre d’entre elles des tests offrent à l’IA un avantage sur le terrain. Parce que la façon dont ils sont formés, les modèles sont naturellement doués dans certains types étroits de problèmes de sursis et de problèmes qui nécessitent une mémorisation par cœur ou une extrapolation de base.

En termes simples, il est difficile de glaner ce que cela signifie que le GPT-4 d’Openai peut marquer dans le 88e centile sur le LSAT, mais ne peut pas discerner combien de Rs sont dans le mot «fraise». Le sonnet d’Anthropic Claude 3.7 a atteint une précision de 62,3% sur une référence standardisée en génie logiciel, mais il est pire de jouer à Pokémon que la plupart des enfants de cinq ans.

MC-Bench est techniquement une référence de programmation, car les modèles sont invités à écrire du code pour créer la construction rapide, comme «Frosty the Snowman» ou «une charmante cabane de plage tropicale sur une rive sablonneuse vierge.

Mais il est plus facile pour la plupart des utilisateurs de MC-Bench d’évaluer où Snowman Lookman regarde que creuser dans le code, ce qui donne au projet un attrait plus large et donc le potentiel de collecter plus de données sur ces modèles constituait un meilleur score.

Dont les scores aiment beaucoup une utilité est à débattre, de race. Singh définit la série qu’ils sont un signal fort, cependant.

« Le classement actuel se reflète assez étroitement à ma propre expérience de l’utilisation de ces modèles, qui est beaucoup de références de texte pur », a déclaré Singh. « Peut-être que (MC-Bench) pourrait être habitué aux entreprises pour savoir si elles se dirigent dans la bonne direction. »



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLa plus ancienne recherche sur la santé humaine du monde révèle la clé du mode de vie à l’espérance de vie
Next Article La puissance militaire européenne travaille sur un plan de 5 à 10 ans pour nous remplacer par l’OTAN
John
  • Website

Related Posts

Le président du conseil d’administration de Tesla appelle le débat sur le pack de paiement de 1 t $ d’Elon Musk ‘Un peu bizarre’

septembre 13, 2025

L’union pilote exhorte la FAA à rejeter le plan de grasion des nuages ​​de drones de Rainmaker du Rainmaker

septembre 13, 2025

Les législateurs de Californie adoptent l’IA de la sécurité du projet de loi SB 53 – mais Newsom pourrait encore opposer son veto

septembre 13, 2025

3 erreurs financières comme les nouveaux entrepreneurs font lors de la planification de l’avenir de leurs enfants

septembre 13, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Fichiers LendBuzz FinTech Lendch FinTech pour les introductions en bourse

septembre 12, 2025

Comment les crypto-monnaies, les fintechs et l’IA peuvent remodeler la géopolitique mondiale de l’avenir

septembre 11, 2025

APAC offre un grand potentiel de croissance, mais le succès nécessite une stratégie de paiement localisée

septembre 11, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

« L’ère de l’indépendance de la Fed touche à sa fin », prévient l’avocat de Cook

septembre 13, 2025

Rubio dit « Je ne suis pas content » de la grève d’Israël contre le Qatar, nos alliés que Trump a ciblé les agents du Hamas

septembre 13, 2025

Charlie Kirk Assassinat: le directeur du FBI a mis en colère d’être perçu comme incapable de continuer à lui fournir des informations

septembre 13, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.