
L’informaticien Louis Castricato en était à sa huitième année de recherche sur des modèles de langage à grande échelle, la technologie d’intelligence artificielle derrière les chatbots comme ChatGPT et Claude, lorsqu’il a commencé à se sentir coincé.
« Nous avons essentiellement franchi l’étape de la réalisation d’une véritable recherche fondamentale en LLM », a déclaré Castricato. « Il ne reste plus que la candidature. »
Le chercheur a abandonné ses études doctorales à l’Université Brown et a fondé une nouvelle entreprise appelée Overworld. Son ambition est dans son nom. C’est une IA capable de comprendre et de naviguer dans le monde, pas seulement des mots.
Il y a encore beaucoup de revenus à tirer des chatbots IA. Les investisseurs placent leurs espoirs dans les chatbots IA, investissant des milliards de dollars dans de grands développeurs comme Anthropic et OpenAI. Mais de plus en plus d’entrepreneurs en IA se concentrent sur ce qu’ils considèrent comme la prochaine frontière : des « modèles mondiaux » qui enseignent aux systèmes d’IA, et dans certains cas aux robots, comment réagir dans des environnements physiques.
Parmi eux figurent certains des scientifiques les plus éminents dans le domaine, tels que Fei-Fei Li, surnommée la « marraine de l’IA », qui décrit le concept de modèle mondial comme « l’un des termes les plus importants et les plus surchargés de l’IA aujourd’hui ».
Les scientifiques utilisent des « modèles du monde » pour appliquer l’IA à de nouvelles dimensions
Au cœur de la recherche sur les modèles mondiaux se trouve l’idée selon laquelle si une IA ne peut que lire des livres, elle ne peut pas être véritablement intelligente. Vous devez également lire la pièce.
« Là où les modèles linguistiques apprennent la structure statistique du texte, les modèles du monde apprennent la structure statistique de l’espace et du temps : comment la lumière frappe une surface, à quoi ressemble un jardin sous des angles non capturés par une caméra, comment les objets réagissent aux forces et obéissent aux lois de la physique », a écrit Lee, fondateur de la startup World Labs de San Francisco, dans un essai publié ce mois-ci.
Un autre partisan est le pionnier de l’IA Yann LeCun. Il a quitté son poste de scientifique en chef de l’IA chez Meta l’année dernière pour créer l’Advanced Machine Intelligence Lab, basé à Paris.
« Le modèle mondial est rapidement devenu un mot à la mode », a déclaré LeCun dans un récent podcast intitulé « Unsupervised Learning ». Selon lui, cela permettrait aux agents de l’IA de « prédire les conséquences de leurs actions ».
Il existe de nombreuses façons de définir un modèle mondial, et celui-ci repose souvent sur la technologie que quelqu’un souhaite construire avec, qu’il s’agisse de robots ou de jeux vidéo plus interactifs.
Les robots ne peuvent pas apprendre grand-chose d’un modèle d’IA formé sur des livres
Tout comme les modèles de langage de l’IA l’ont fait, la formation de l’humanité dans tous les livres, articles de presse et médias visuels a conduit les assistants IA à changer la nature des emplois de bureau et de certains domaines créatifs. Mais certains partisans estiment que les modèles d’IA générative, qui fonctionnent en prédisant à plusieurs reprises le prochain mot ou pixel pour générer une nouvelle interaction, image ou ligne de code, ont des limites.
Marshall Hebert, doyen du département d’informatique de l’université Carnegie Mellon, souligne que les chatbots ne peuvent pas ramasser les tasses de café.
« Il y a toute la géométrie du monde, la dynamique du mouvement de mes mains, l’interaction physique du contact avec la coupe », a déclaré Hébert. « C’est bien plus complexe que de simplement prédire le mot suivant dans une phrase. »
Pour des scientifiques comme Ebert, qui a consacré plus de 40 ans à la recherche sur la robotique, l’application la plus utile des modèles mondiaux est une voie plus rapide et moins coûteuse vers « l’IA physique », un autre mot à la mode dans l’industrie technologique.
« Certaines personnes peuvent avoir des définitions différentes, mais l’IA physique et incarnée est en quelque sorte une évolution de ce qu’on appelait autrefois la robotique », a déclaré Hébert dans une interview. Il a déclaré que certaines des avancées de l’IA qui ont rendu les chatbots si utiles peuvent également être appliquées à la création d’une IA suffisamment consciente de son environnement pour fonctionner comme un cerveau de robot.
« Le corps humain et la moelle épinière ont un modèle très général sur la façon de s’équilibrer et de marcher, et ils peuvent s’adapter à une douleur au genou le matin, ils marchent donc maintenant un peu différemment », dit-il. « Vous n’avez pas besoin d’y penser. Il existe un modèle général quelque part dans votre système nerveux et votre cerveau qui permet à votre corps de s’adapter rapidement. »
Les mondes simulés suscitent l’intérêt des investisseurs
Des robots plus intelligents ne sont pas le seul objectif final du modèle mondial. Castricato a lancé Overworld l’année dernière, et la petite startup basée à Rhode Island construit actuellement des mondes de jeux vidéo dans lesquels des scènes forestières étranges, par exemple, peuvent s’adapter à mesure que des personnages virtuels les parcourent et interagissent avec les objets qu’ils contiennent.
« Il n’existe aucun autre modèle au monde où l’on peut franchir des portes et interagir avec des environnements avec autant de détails », a-t-il déclaré dans une interview. « Nous optimisons avant tout les interactions. »
Bien que les applications à court terme soient moins évidentes que les outils de codage d’IA, le modéliste mondial attire l’attention d’investisseurs en capital-risque comme Steve Jang, co-fondateur et associé directeur de Kindred Ventures.
La société a investi dans des sociétés axées sur les modèles globaux, notamment Overworld, Causal Labs, qui construit des modèles d’IA pour les prévisions météorologiques, et Extropic, qui construit des puces informatiques spécialisées adaptées aux modèles globaux.
« Je pense que l’avenir sera constitué de différents types de modèles avec des philosophies et des architectures différentes », a déclaré Chan. « Je ne pense pas qu’un modèle vaste et détaillé puisse tous les dominer. »
Dans un essai récent, Lee a cherché à créer une « taxonomie des modèles du monde » pour dissiper la confusion entre les visions concurrentes.
« Un modèle vidéo qui génère des flammes magnifiques mais physiquement impossibles, un modèle de langage qui improvise des jeux jouables et un moteur physique qui simule fidèlement la combustion partagent tous le même nom », écrit-elle.
Elle a classé les modèles du monde en trois catégories. Les plus viables commercialement actuellement sont les « moteurs de rendu » qui donnent la priorité à la fidélité visuelle dans les mondes virtuels qu’ils créent, mais on ne peut pas leur faire confiance pour enseigner grand-chose aux robots.
Il existe ensuite des « simulateurs » qui créent des terrains d’entraînement virtuels qui représentent fidèlement la structure physique du monde. et des « planificateurs » qui tentent de prédire ce que les agents et les robots de l’IA devraient faire dans un monde non structuré.
« Un robot capable de planifier est un robot capable de faire du travail, et l’ensemble de l’industrie se bat pour être le premier robot à y parvenir », a-t-elle écrit.

