Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

TikTok lance TikTok Pro Events, une application pour des moments culturels comme la Coupe du Monde de la FIFA

juin 3, 2026

« Arrêtez les silos d’excellence » : le COO de Peloton a une stratégie de la Marine pour perturber la chaîne d’approvisionnement

juin 3, 2026

L’agent IA de Meta pour WhatsApp Business est désormais disponible dans le monde entier

juin 3, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Un lycée a construit un site Web qui vous permet de défier les modèles d’IA à une construction de minecraft
Startups

Un lycée a construit un site Web qui vous permet de défier les modèles d’IA à une construction de minecraft

JohnBy Johnmars 20, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Alors que les techniques d’analyse comparative d’IA conventionnelles se sont révélées inadéquates, les constructeurs d’IA se tournent vers des moyens plus créatifs d’évaluer les capacités des modèles d’IA génératifs. Pour un groupe de développeurs, c’est Minecraft, le jeu de construction de sandbox appartenant à Microsoft.

Le site Web Minecraft Benchmark (ou MC-Bench) a été développé en collaboration pour s’opposer aux modèles d’IA les uns contre les autres dans des défis en tête-à-tête pour répondre aux invites avec les créations Minecraft. Les utilisateurs peuvent votion sur quel modèle a fait un meilleur travail, et ce n’est qu’après avoir voté qu’ils peuvent voir quelle IA a fait chaque construction de minecraft.

Crédits Image: Minecraft Benchmark (Ouvrir dans une nouvelle fenêtre)

Pour Adi Singh, le élève de 12e année qui a commencé MC-Bench, la valeur de Minecraft n’est pas tant le jeu lui-même, mais la familiarité que les gens ont avec tout cela, c’est le jeu vidéo le plus vendu de tous les temps. Même pour les personnes qui n’ont pas joué au jeu, il est toujours possible d’évaluer quelle représentation en blocs d’un ananas est mieux réalisée.

« Minecraft permet aux gens de voir les progrès (du développement de l’IA) beaucoup plus facilement », a déclaré Singh à TechCrunch. «Les gens sont habitués à Minecraft, utilisent le look et l’ambiance.»

MC-Bench répertorie actuellement huit personnes en tant que contributeurs bénévoles. Anthropic, Google, Openai et Alibaba ont subventionné l’utilisation par le projet de leur produit pour exécuter des invites de référence, selon le site Web de MC-Bench, mais les sociétés ne sont pas affiliées par ailleurs.

« Actuellement, nous faisons simplement des constructions simples pour réfléchir à la distance où nous venons de l’ère GPT-3, mais (nous) nous voyons évoluer vers ces plans de forme longue et ces tâches orientées vers les objectifs », a déclaré Singh. « Les jeux pourraient bien être un raisonnement agentique moyen à tester qui est plus sûr que dans la vie réelle et plus contrôlable à des fins de test, ce qui le rend plus idéal à mes yeux. »

D’autres jeux comme Pokémon Red, Street Fighter et Pictionary ont été utilisés comme références expérimentales pour l’IA, en partie parce que l’art de l’analyse comparative est notoirement délicat.

Les chercheurs testent souvent les modèles d’IA sur des évaluations standardisées, mais bon nombre d’entre elles des tests offrent à l’IA un avantage sur le terrain. Parce que la façon dont ils sont formés, les modèles sont naturellement doués dans certains types étroits de problèmes de sursis et de problèmes qui nécessitent une mémorisation par cœur ou une extrapolation de base.

En termes simples, il est difficile de glaner ce que cela signifie que le GPT-4 d’Openai peut marquer dans le 88e centile sur le LSAT, mais ne peut pas discerner combien de Rs sont dans le mot «fraise». Le sonnet d’Anthropic Claude 3.7 a atteint une précision de 62,3% sur une référence standardisée en génie logiciel, mais il est pire de jouer à Pokémon que la plupart des enfants de cinq ans.

MC-Bench est techniquement une référence de programmation, car les modèles sont invités à écrire du code pour créer la construction rapide, comme «Frosty the Snowman» ou «une charmante cabane de plage tropicale sur une rive sablonneuse vierge.

Mais il est plus facile pour la plupart des utilisateurs de MC-Bench d’évaluer où Snowman Lookman regarde que creuser dans le code, ce qui donne au projet un attrait plus large et donc le potentiel de collecter plus de données sur ces modèles constituait un meilleur score.

Dont les scores aiment beaucoup une utilité est à débattre, de race. Singh définit la série qu’ils sont un signal fort, cependant.

« Le classement actuel se reflète assez étroitement à ma propre expérience de l’utilisation de ces modèles, qui est beaucoup de références de texte pur », a déclaré Singh. « Peut-être que (MC-Bench) pourrait être habitué aux entreprises pour savoir si elles se dirigent dans la bonne direction. »



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLa plus ancienne recherche sur la santé humaine du monde révèle la clé du mode de vie à l’espérance de vie
Next Article La puissance militaire européenne travaille sur un plan de 5 à 10 ans pour nous remplacer par l’OTAN
John
  • Website

Related Posts

TikTok lance TikTok Pro Events, une application pour des moments culturels comme la Coupe du Monde de la FIFA

juin 3, 2026

L’agent IA de Meta pour WhatsApp Business est désormais disponible dans le monde entier

juin 3, 2026

Le plus grand laser privé au monde vient d’être allumé

juin 3, 2026

Squishmallows, dents et sac « I Heart Hot Dads » : Uber a trouvé des milliers d’objets laissés dans un robotaxis

juin 2, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Les efforts d’expansion des Fintech doublent les transactions de paiement mobile au Maroc à 19,7 millions

juin 3, 2026

C’est pourquoi le boom des introductions en bourse dans le secteur des technologies financières n’a pas encore eu lieu

juin 2, 2026

DXC annonce DXC CoreIgnite, aidant les institutions financières à se connecter et à développer rapidement l’écosystème FinTech

juin 2, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

TikTok lance TikTok Pro Events, une application pour des moments culturels comme la Coupe du Monde de la FIFA

juin 3, 2026

« Arrêtez les silos d’excellence » : le COO de Peloton a une stratégie de la Marine pour perturber la chaîne d’approvisionnement

juin 3, 2026

L’agent IA de Meta pour WhatsApp Business est désormais disponible dans le monde entier

juin 3, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.