J'ai construit des châteaux de guimauve dans le nouveau générateur de monde IA de Google

Google DeepMind ouvre l’accès à Project Genie, son outil d’IA permettant de créer des mondes de jeux interactifs à partir d’invites de texte ou d’images.

À partir de jeudi, les abonnés Google AI Ultra aux États-Unis peuvent jouer avec le prototype de recherche expérimental, qui est alimenté par une combinaison du dernier modèle mondial de Google, Genie 3, de son modèle de génération d’images Nano Banana Pro et de Gemini.

Intervenant cinq mois après l’aperçu de la recherche de Genie 3, cette décision fait partie d’une initiative plus large visant à recueillir les commentaires des utilisateurs et les données de formation alors que DeepMind s’efforce de développer des modèles mondiaux plus performants.

Les modèles mondiaux sont des systèmes d’IA qui génèrent une représentation interne d’un environnement et peuvent être utilisés pour prédire les résultats futurs et planifier des actions. De nombreux leaders de l’IA, y compris ceux de DeepMind, estiment que les modèles mondiaux constituent une étape cruciale vers la réalisation de l’intelligence artificielle générale (AGI). Mais à plus court terme, des laboratoires comme DeepMind envisagent un plan de commercialisation qui commence par les jeux vidéo et d’autres formes de divertissement et se prolonge par la formation d’agents incarnés (alias robots) à la simulation.

La sortie de Project Genie par DeepMind intervient alors que la course mondiale aux modèles commence à s’intensifier. World Labs de Fei-Fei Li a lancé à la fin de l’année dernière son premier produit commercial appelé Marble. Runway, la startup de génération vidéo IA, a également récemment lancé un modèle mondial. Et la startup AMI Labs, dirigée par Yann LeCun, ancien scientifique en chef de Meta, se concentrera également sur le développement de modèles mondiaux.

« Je pense que c’est excitant d’être dans un endroit où davantage de personnes peuvent y accéder et nous faire part de leurs commentaires », a déclaré Shlomi Fruchter, directrice de recherche chez DeepMind, à TechCrunch via une interview vidéo, souriant jusqu’aux oreilles, clairement enthousiasmée par la sortie de Project Genie.

Les chercheurs de DeepMind avec lesquels TechCrunch s’est entretenu ont été francs sur la nature expérimentale de l’outil. Cela peut être incohérent, générant parfois des mondes jouables de manière impressionnante, d’autres fois produisant des résultats déroutants qui manquent la cible. Voici comment cela fonctionne.

Événement Techcrunch

Boston, Massachusetts
|
23 juin 2026

Un château de style pâte à modeler dans le ciel composé de guimauves et de bonbonsCrédits image : TechCrunch

Vous commencez par une « esquisse du monde » en fournissant des invites textuelles pour l’environnement et un personnage principal, que vous pourrez ensuite manœuvrer à travers le monde en vue à la première ou à la troisième personne. Nano Banana Pro crée une image basée sur les invites que vous pouvez, en théorie, modifier avant que Genie n’utilise l’image comme point de départ pour un monde interactif. Les modifications fonctionnaient pour la plupart, mais le modèle trébuchait parfois et vous donnait des cheveux violets lorsque vous demandiez du vert.

Vous pouvez également utiliser des photos réelles comme référence pour le modèle sur lequel construire un monde, qui, encore une fois, a été aléatoire. (Nous en reparlerons plus tard.)

Une fois que vous êtes satisfait de l’image, il faut quelques secondes à Project Genie pour créer un monde explorable. Vous pouvez également remixer des mondes existants dans de nouvelles interprétations en vous appuyant sur leurs invites, ou explorer des mondes sélectionnés dans la galerie ou via l’outil de randomisation pour vous inspirer. Vous pouvez ensuite télécharger des vidéos du monde que vous venez d’explorer.

DeepMind n’accorde pour le moment que 60 secondes de génération et de navigation mondiales, en partie à cause des contraintes budgétaires et de calcul. Genie 3 étant un modèle auto-régressif, il nécessite beaucoup de calcul dédié, ce qui limite étroitement ce que DeepMind est capable de fournir aux utilisateurs.

« La raison pour laquelle nous le limitons à 60 secondes est que nous voulions le proposer à davantage d’utilisateurs », a déclaré Fruchter. « En gros, lorsque vous l’utilisez, il y a une puce quelque part qui n’appartient qu’à vous et qui est dédiée à votre session. »

Il a ajouté que la prolonger au-delà de 60 secondes diminuerait la valeur incrémentielle des tests.

« Les environnements sont intéressants, mais à un moment donné, en raison de leur niveau d’interaction, le dynamisme de l’environnement est quelque peu limité. Néanmoins, nous considérons cela comme une limitation que nous espérons améliorer. »

La fantaisie fonctionne, pas le réalisme

Google a reçu une ordonnance de cessation et d’abstention de la part de Disney l’année dernière, afin de ne pas construire de modèles liés à Disney.Crédits image : TechCrunch

Lorsque j’ai utilisé le modèle, les garde-corps de sécurité étaient déjà opérationnels. Je ne pouvais pas générer quoi que ce soit qui ressemble à de la nudité, ni créer des mondes qui reniflaient, même de loin, Disney ou d’autres contenus protégés par le droit d’auteur. (En décembre, Disney a frappé Google avec un cessez-le-feu, accusant les modèles d’IA de l’entreprise de violation du droit d’auteur en s’entraînant sur les personnages et la propriété intellectuelle de Disney et en générant du contenu non autorisé, entre autres.) Je n’ai même pas pu convaincre Genie de générer des mondes de sirènes explorant des terres fantastiques sous-marines ou des reines de glace dans leurs châteaux hivernaux.

Pourtant, la démo était profondément impressionnante. Le premier monde que j’ai construit était une tentative de vivre un petit fantasme d’enfance, dans lequel je pouvais explorer un château dans les nuages composé de guimauves avec une rivière à la sauce au chocolat et des arbres faits de bonbons. (Oui, j’étais un enfant potelé.) J’ai demandé au modèle de le faire dans le style de l’argile, et cela m’a donné un monde fantaisiste que mon enfance aurait dévoré ; les spirales et les tourelles aux couleurs pastel et blanches du château semblent suffisamment gonflées et savoureuses pour en arracher un morceau et les plonger dans les douves en chocolat. (Vidéo ci-dessus.)

Un monde inspiré de « Game of Thrones » qui n’a pas réussi à générer un rendu aussi photoréaliste que je le souhaitaisCrédits image : TechCrunch

Cela dit, Project Genie a encore quelques problèmes à résoudre.

Les modèles excellaient dans la création de mondes basés sur des invites artistiques, comme l’utilisation d’aquarelles, de styles animés ou d’esthétiques classiques de dessins animés. Mais il avait tendance à échouer lorsqu’il s’agissait d’univers photoréalistes ou cinématographiques, ressemblant souvent à un jeu vidéo plutôt qu’à de vraies personnes dans un décor réel.

Il ne répondait pas non plus toujours bien lorsqu’on lui donnait de vraies photos avec lesquelles travailler. Lorsque je lui ai donné une photo de mon bureau et lui ai demandé de créer un monde basé sur la photo exactement tel qu’il était, cela m’a donné un monde qui contenait certains des mêmes meubles que mon bureau – un bureau en bois, des plantes, un canapé gris – disposés différemment. Et cela avait l’air stérile, numérique, pas réaliste.

Lorsque je lui ai transmis une photo de mon bureau avec un jouet en peluche, Project Genie a animé le jouet naviguant dans l’espace, et a même parfois fait réagir d’autres objets lorsqu’il les dépassait.

Cette interactivité est quelque chose que DeepMind s’efforce d’améliorer. Il y a eu plusieurs occasions où mes personnages ont traversé des murs ou d’autres objets solides.

J’ai demandé à Project Genie d’animer un jouet en peluche (Bingo Bronson) pour qu’il puisse explorer mon bureauCrédits image : TechCrunch

Lorsque DeepMind a initialement publié Genie 3, les chercheurs ont souligné comment l’architecture auto-régressive du modèle signifiait qu’il pouvait se souvenir de ce qu’il avait généré. J’ai donc voulu tester cela en retournant à des parties de l’environnement déjà générées pour voir si ce serait la même chose. Pour l’essentiel, le modèle a réussi. Dans un cas, j’ai généré un chat explorant encore un autre bureau, et une seule fois, lorsque je me suis retourné vers le côté droit du bureau, le modèle a généré une deuxième tasse.

La partie que j’ai trouvée la plus frustrante était la façon dont vous parcouriez l’espace en utilisant les flèches pour regarder autour de vous, la barre d’espace pour sauter ou monter et les touches WASD pour vous déplacer. Je ne suis pas un joueur, donc cela ne m’est pas venu naturellement, mais les touches ne répondaient souvent pas, ou bien elles vous envoyaient dans la mauvaise direction. Essayer de marcher d’un côté de la pièce jusqu’à une porte de l’autre côté devenait souvent un exercice chaotique en zigzag, comme essayer de diriger un caddie avec une roue cassée.

Fruchter m’a assuré que son équipe était consciente de ces lacunes, me rappelant encore une fois que le Projet Génie est un prototype expérimental. À l’avenir, a-t-il déclaré, l’équipe espère améliorer le réalisme et les capacités d’interaction, notamment en donnant aux utilisateurs plus de contrôle sur les actions et les environnements.

« Nous ne considérons pas (Project Genie) comme un produit de bout en bout auquel les gens peuvent revenir tous les jours, mais nous pensons qu’il y a déjà un aperçu de quelque chose d’intéressant et unique qui ne peut être réalisé autrement », a-t-il déclaré.

Source link

What's Hot

The only AI glossary you’ll need this year

Le Japon utilise le « Devin-kun » de Cognition comme code existant, ouvrant ainsi le marché du codage de l’IA à mesure que la main-d’œuvre diminue

La guerre des navigateurs ne concerne plus la recherche : voici les meilleures alternatives à Chrome et Safari

J’ai construit des châteaux de guimauve dans le nouveau générateur de monde IA de Google

The only AI glossary you’ll need this year

La guerre des navigateurs ne concerne plus la recherche : voici les meilleures alternatives à Chrome et Safari

Le clavier Dune peut être votre contrôleur de réunion et bien plus encore

Chevrolet a construit un camion EV entièrement américain – pourquoi personne ne l’achète ?

Mynd Fintech de M1xchange acquiert C2FO India

PB Fintech Block Deal : le cours de l’action chute de 8 % après le transfert d’actions d’une valeur de Rs 1 741 crore

PB Fintech Block Deal : le cours de l’action chute de 8 % après le transfert d’actions d’une valeur de Rs 1 741 crore

Top Insights

The only AI glossary you’ll need this year

Le Japon utilise le « Devin-kun » de Cognition comme code existant, ouvrant ainsi le marché du codage de l’IA à mesure que la main-d’œuvre diminue

La guerre des navigateurs ne concerne plus la recherche : voici les meilleures alternatives à Chrome et Safari

What's Hot

J’ai construit des châteaux de guimauve dans le nouveau générateur de monde IA de Google

La fantaisie fonctionne, pas le réalisme

Related Posts

Subscribe to Updates