
Ce sont eux qui ont fait de l’intelligence artificielle ce qu’elle est aujourd’hui. Ils ont construit des ensembles de données, conçu des architectures et formé des systèmes qui rédigent désormais des e-mails, génèrent du code et réussissent les examens du barreau. Et de plus en plus, ils sont aux prises avec le même problème. Ce problème suggère que l’IA la plus puissante d’aujourd’hui, malgré ses incroyables capacités, manque encore de quelque chose de fondamental.
Goldman Sachs nomme ce qui manque. Un nouveau rapport du Goldman Sachs Global Institute, rédigé par le co-directeur George Lee et le directeur général Dan Keyserling, aborde ce que l’on appelle dans l’industrie le « modèle mondial » et affirme que sa résolution représente le prochain pas décisif en matière d’intelligence artificielle. Ce n’est pas une légère amélioration. Un changement qualitatif dans ce que les machines peuvent faire et, par conséquent, dans la manière dont elles peuvent le faire.
Le fait que les parrains de l’IA se précipitent déjà dans ce sens suggère que Goldman a peut-être quelque chose à voir.
L’écart dont personne ne veut parler
La révolution massive des modèles linguistiques a produit quelque chose de vraiment étonnant. Une fois que vous avez entraîné un système sur suffisamment de texte humain, que vous l’optimisez pour prédire quel mot viendra ensuite et que vous l’étendez, il commence à raisonner, à parler, à écrire et à coder à un niveau qui, presque inexplicablement, surprend régulièrement ses créateurs. Des gains commerciaux s’ensuivent, notamment des valorisations de plusieurs milliards de dollars, une consolidation de l’industrie et une génération de cols blancs repensant leur carrière.
Il existe cependant des limites structurelles à cette capacité, et l’industrie hésite à les affronter de front. « LLM est puissant pour la réalisation de modèles », écrivent Lee et Keyserling. « Cependant, les auteurs du L.L.M. Goldman affirment que ces systèmes « génèrent cette compréhension grâce à une interprétation de second ordre ; c’est-à-dire qu’ils comprennent comment notre monde fonctionne en fonction des données et des textes auxquels ils sont exposés. Ces systèmes n’ont aucune compréhension des principes fondamentaux de la physique, du mouvement, de la lumière, de l’action/réaction ou d’autres propriétés fondamentales de notre univers. »
En termes simples, l’IA d’aujourd’hui apprend à connaître le monde en lisant ce que les humains écrivaient à son sujet. Il absorbait les représentations de la réalité sans rencontrer la réalité elle-même. Peut expliquer dans une prose fluide que le verre se brise lorsqu’il tombe. Il n’y a pas de sentiment interne de poids, de trajectoire ou de résultat.
Cette différence se reflète à peine dans les cas d’utilisation qui dominent aujourd’hui l’IA d’entreprise, tels que la synthèse de documents, la rédaction de communications et la génération de code. Lorsqu’on demande à l’IA de naviguer dans des environnements physiques non structurés, d’orchestrer des réponses organisationnelles complexes en temps réel et de raisonner sur la manière dont les décisions stratégiques se répercuteront sur les marchés réels, cela devient un obstacle de taille.
Ce que le Parrain construit
Ici, le rapport de Goldman devient plus qu’une simple observation. Les chercheurs qui se mobilisent autour du modèle mondial ne constituent pas un mouvement marginal. Dans certains cas, ce sont les mêmes personnes dont les recherches antérieures ont créé l’ère de l’IA qui fait désormais la une des journaux.
Yann LeCun, qui a passé des années en tant que scientifique principal en IA chez Meta avant de partir pour lancer sa nouvelle entreprise AMI Labs, a une base claire pour sa vision de l’intelligence artificielle générale dans un modèle mondial. Son architecture de prédiction conjointe embarquée (JEPA) est conçue pour construire des machines qui développent des modèles internes du monde par l’observation, comme le font les humains, plutôt que par la prédiction de texte. LeCun a été un critique public et persistant de l’idée selon laquelle l’intelligence générale peut être atteinte simplement en mettant à l’échelle le LLM. Le modèle mondial est sa thèse alternative.
Fei-Fei Li, le chercheur de l’Université de Stanford dont l’ensemble de données ImageNet a déclenché la révolution de l’apprentissage profond qui a donné naissance aux systèmes d’IA dominants d’aujourd’hui, a fondé World Labs autour d’une idée connexe : l’intelligence spatiale. Le principe est que la véritable intelligence nécessite non seulement de reconnaître les objets dans les images, mais également de comprendre comment ces objets existent dans l’espace, interagissent les uns avec les autres et évoluent au fil du temps. Le pari de Lee est que les machines doivent habiter des modèles de réalité tridimensionnelle, et pas seulement les catégoriser.
Ce ne sont pas des personnalités marginales qui affirment des positions à contre-courant pour attirer l’attention. Ils sont les architectes du paradigme actuel et, dans leurs propres recherches et entreprises, ils soutiennent que le paradigme est incomplet.
Deux frontières, une idée
Le rapport de Goldman détaille à quoi ressemble réellement le modèle mondial et identifie deux trajectoires distinctes mais liées.
Les modèles du monde physique enseignent à l’IA les logiques régissant le monde matériel, telles que la gravité, la friction, la thermodynamique et la mécanique des fluides. Plutôt que d’apprendre uniquement par essais et erreurs dans le monde réel, ces systèmes absorbent les lois de la physique par la simulation et la pratique dans un environnement numérique où l’échec est rapide et peu coûteux. Le robot peut tomber des milliers de fois dans le simulateur avant de toucher le sol. Lorsqu’il agit finalement dans l’espace physique, il le fait en ayant déjà intériorisé les conséquences.
Les résultats sont déjà visibles dans les systèmes de logistique, de fabrication et de conduite autonome. Les robots d’entrepôt parcourent les espaces bondés pour réduire les collisions, et les voitures autonomes répètent les cas extrêmes avant de les rencontrer sur la route. Selon Goldman, la principale avancée n’est pas l’amélioration du matériel. C’est un meilleur modèle interne de réalité.
Les modèles du monde virtuel, ou modèles du monde social, poursuivent des ambitions similaires à celles des systèmes humains. Il s’agit d’environnements numériques peuplés d’agents IA dotés d’objectifs, de souvenirs et d’incitations, chacun étant conçu pour se rapprocher des profils comportementaux du monde réel. À mesure que ces agents interagissent, des modèles émergent. Les marchés agissent. L’organisation répond. Les crises se succèdent. « Les entreprises consacrent déjà beaucoup d’efforts à deviner comment les autres entreprises réagiront, comment les concurrents se comporteront, comment le marché interprétera les signaux et comment les conseils d’administration réagiront sous la pression », écrivent Lee et Keyserling. « La simulation multi-agents offre quelque chose de proche d’un modèle vivant de systèmes humains. »
Les auteurs de Goldman font ici une distinction très importante dans la façon dont les dirigeants d’entreprise devraient considérer ces outils. Autrement dit, les modèles mondiaux ne sont pas des prédictions. « Ces systèmes ne prédisent pas l’avenir au sens étroit du terme ; ils visent à révéler des futurs probables et à révéler des relations de pouvoir cachées », écrivent-ils. « Les prédictions supposent un seul résultat correct. Les modèles mondiaux révèlent la portée, les voies et les boucles de rétroaction. »
Les questions d’investissement que Wall Street n’a pas posées
Goldman est Goldman, et ce rapport se résume finalement à un argument financier, mais il est pointu.
Selon le rapport, l’ensemble de la construction de l’infrastructure de l’IA a été déterminé par un principe : l’avenir de l’IA réside dans des modèles de langage plus vastes fonctionnant avec davantage de calcul. Presque toutes les prévisions actuelles concernant les puces, les centres de données et la capacité énergétique reposent sur cette base. La question de M. Goldman est de savoir si ces prévisions sont à la hauteur.
« Les demandes et les opportunités entourant les modèles mondiaux ne se sont pas encore reflétées dans les prévisions consensuelles de l’offre et de la demande pour l’infrastructure d’IA », ont écrit Lee et Keyserling. Si le modèle mondial est développé comme une couche complémentaire (construite en parallèle avec le LLM, plutôt que de le remplacer), les besoins informatiques pourraient largement dépasser les projections actuelles de Wall Street. Un environnement de simulation nécessite des pipelines de données spécialisés, des générateurs de données synthétiques et des moteurs physiques qui vont bien au-delà d’un corpus de texte. « L’histoire de l’infrastructure est celle d’une duplication partielle et non d’une réutilisation transparente », écrivent les auteurs.
Le cadre concurrentiel est tout aussi exigeant. « L’avantage concurrentiel peut dépendre autant de celui qui forme les plus grands modèles que de celui qui construit les simulations réelles, physiques, sociales et économiques les plus fidèles. »
lien manquant
Le rapport de Goldman se termine par une formule qui constitue également le résumé le plus clair de ce que représente le modèle mondial et des raisons pour lesquelles la course à sa construction attire certaines des personnes les plus fiables dans le domaine.
« Si les modèles linguistiques à grande échelle permettent de maîtriser l’IA, les modèles mondiaux donnent à l’IA une connaissance de la situation », écrivent Lee et Keyserling. « Pendant une grande partie de l’histoire récente de l’intelligence artificielle, nous l’avons traitée comme un système qui produit des réponses. Le modèle mondial suggère quelque chose de plus ambitieux. »
Réinventée au cours de la dernière décennie, l’IA a appris à parler du monde de manière étonnamment sophistiquée. L’IA que les Parrains construisent actuellement essaie d’apprendre quelque chose de plus difficile et de plus fondamental : ce que l’on ressent réellement en étant à l’intérieur.
Dans cet article, les journalistes de Fortune ont utilisé l’IA générative comme outil d’enquête. Les rédacteurs ont vérifié l’exactitude des informations avant leur publication.

