Physical Intelligence, la startup de robotique basée à San Francisco, créée il y a deux ans et devenue discrètement l’une des sociétés d’IA les plus surveillées de la Bay Area, a publié jeudi de nouvelles recherches montrant que son dernier modèle peut diriger des robots vers l’exécution de tâches pour lesquelles ils n’ont jamais été explicitement formés – une capacité qui, selon les propres chercheurs de l’entreprise, les a pris au dépourvu.
Le nouveau modèle, appelé π0.7, représente ce que l’entreprise décrit comme une étape précoce mais significative vers l’objectif tant recherché d’un cerveau de robot à usage général : un cerveau qui peut être dirigé vers une tâche inconnue, coaché dans un langage simple et réellement réussi. Si les résultats résistent à un examen minutieux, ils suggèrent que l’IA robotique pourrait approcher d’un point d’inflexion similaire à celui observé dans le domaine avec les grands modèles de langage – où les capacités commencent à s’accumuler d’une manière qui dépasse ce que les données sous-jacentes semblent prédire.
Mais d’abord : l’argument principal de l’article est la généralisation compositionnelle – la capacité de combiner les compétences acquises dans différents contextes pour résoudre des problèmes que le modèle n’a jamais rencontrés. Jusqu’à présent, l’approche standard de la formation des robots reposait essentiellement sur la mémorisation par cœur : collecter des données sur une tâche spécifique, former un modèle spécialisé sur ces données, puis répéter pour chaque nouvelle tâche. Selon l’intelligence physique, π0,7 brise ce schéma.
« Une fois que l’on franchit le seuil où l’on passe du simple fait de faire exactement ce pour quoi vous collectez les données à un remixage des choses de nouvelles manières », explique Sergey Levine, co-fondateur de Physical Intelligence et professeur spécialisé dans l’IA pour la robotique à l’Université de Berkeley, « les capacités augmentent de manière plus que linéaire avec la quantité de données. Cette propriété de mise à l’échelle beaucoup plus favorable est quelque chose que nous avons vu dans d’autres domaines, comme le langage et la vision. »
La démonstration la plus frappante du journal concerne une friteuse à air que le modèle n’avait pratiquement jamais vue en formation. Lorsque l’équipe de recherche a enquêté, elle n’a trouvé que deux épisodes pertinents dans l’ensemble des données de formation : un dans lequel un autre robot a simplement poussé la friteuse à air fermé, et un autre provenant d’un ensemble de données open source où un autre robot a placé une bouteille en plastique à l’intérieur d’une bouteille sur les instructions de quelqu’un. Le modèle avait en quelque sorte synthétisé ces fragments, ainsi que des données de pré-entraînement plus larges basées sur le Web, pour obtenir une compréhension fonctionnelle du fonctionnement de l’appliance.
« Il est très difficile de déterminer d’où viennent les connaissances, et où elles réussiront ou échoueront », explique Ashwin Balakrishna, chercheur scientifique à l’Intelligence Physique et doctorant en informatique à Stanford. Pourtant, sans aucune formation, le modèle a fait une tentative passable d’utiliser l’appareil pour cuire une patate douce. Avec des instructions verbales étape par étape – essentiellement, un humain guidant le robot tout au long de la tâche de la même manière que vous expliqueriez quelque chose à un nouvel employé – l’opération s’est déroulée avec succès.
Cette capacité de coaching est importante car elle suggère que les robots pourraient être déployés dans de nouveaux environnements et améliorés en temps réel sans collecte de données supplémentaire ni recyclage du modèle.
Alors qu’est-ce que tout cela signifie ? Les chercheurs n’hésitent pas à reconnaître les limites du modèle et veillent à ne pas prendre d’avance. Dans au moins un cas, ils pointent carrément du doigt leur propre équipe.
« Parfois, le mode de défaillance ne vient pas du robot ou du modèle », explique Balakrishna. « C’est de notre faute. Ne pas être doué en ingénierie rapide. » Il décrit une première expérience de friteuse à air qui a produit un taux de réussite de 5 %. Après avoir passé environ une demi-heure à peaufiner la manière dont la tâche était expliquée au modèle, le taux est passé à 95 %, dit-il.

Le modèle n’est pas non plus encore capable d’exécuter des tâches complexes en plusieurs étapes de manière autonome à partir d’une seule commande de haut niveau. « Vous ne pouvez pas lui dire : ‘Hé, va me préparer des toasts' », dit Levine. « Mais si vous le parcourez – ‘pour le grille-pain, ouvrez cette partie, appuyez sur ce bouton, faites ceci’ – alors cela a tendance à fonctionner plutôt bien. »
L’équipe a également reconnu qu’il n’existe pas vraiment de références standardisées pour la robotique, ce qui rend difficile la validation externe de leurs affirmations. Au lieu de cela, l’entreprise a mesuré π0,7 par rapport à ses propres modèles spécialisés précédents (des systèmes spécialement conçus et formés à des tâches individuelles) et a constaté que le modèle généraliste correspondait à leurs performances sur une gamme de travaux complexes, notamment la préparation du café, le pliage du linge et l’assemblage de cartons.
Ce qui est peut-être le plus remarquable dans la recherche – si vous croyez les chercheurs sur parole – n’est pas une simple démonstration, mais la mesure dans laquelle les résultats les ont surpris, des personnes dont le travail consiste à savoir exactement ce que contiennent les données d’entraînement et donc ce que le modèle devrait et ne devrait pas être capable de faire.
« Mon expérience a toujours été que lorsque je connais parfaitement le contenu des données, je peux en quelque sorte deviner ce que le modèle sera capable de faire », explique Balakrishna. « Je suis rarement surpris. Mais ces derniers mois ont été la première fois où je suis vraiment surpris. J’ai juste acheté un ensemble d’engrenages au hasard et j’ai demandé au robot : « Hé, peux-tu faire tourner cet engrenage ? » Et ça a fonctionné.
Levine a rappelé le moment où les chercheurs ont rencontré pour la première fois GPT-2, générant une histoire sur les licornes dans les Andes. « Où diable a-t-il appris l’existence des licornes au Pérou ? » dit-il. « C’est une combinaison tellement étrange. Et je pense que voir cela en robotique est vraiment spécial. »
Naturellement, les critiques souligneront ici une asymétrie inconfortable : les modèles linguistiques avaient tout Internet pour apprendre. Ce n’est pas le cas des robots, et aucune incitation intelligente ne comble complètement cet écart. Mais lorsqu’on lui demande où il s’attend à ce scepticisme, Levine pointe du doigt tout autre chose.
« La critique que l’on peut toujours adresser à toute démonstration de généralisation robotique est que les tâches sont plutôt ennuyeuses », dit-il. « Le robot ne fait pas de backflip. » Il repousse ce cadre, arguant que la distinction entre une démonstration de robot impressionnante et un système robotique qui généralise est précisément le point important. La généralisation, suggère-t-il, semblera toujours moins dramatique qu’une cascade soigneusement chorégraphiée – mais elle est considérablement plus utile.
Le document lui-même utilise un langage de couverture prudent tout au long, décrivant π0,7 comme montrant des « premiers signes » de généralisation et des « premières démonstrations » de nouvelles capacités. Il s’agit de résultats de recherche, pas d’un produit déployé, et l’intelligence physique a été limitée dès le départ par les délais commerciaux.
Lorsqu’on lui demande directement quand un système basé sur ces résultats pourrait être prêt à être déployé dans le monde réel, Levine refuse de spéculer. « Je pense qu’il y a de bonnes raisons d’être optimiste, et les choses progressent certainement plus rapidement que ce à quoi je m’attendais il y a quelques années », dit-il. « Mais c’est très difficile pour moi de répondre à cette question. »
L’intelligence physique a collecté plus d’un milliard de dollars à ce jour et a été récemment évaluée à 5,6 milliards de dollars. Une partie importante de l’enthousiasme des investisseurs autour de l’entreprise remonte à Lachy Groom, un co-fondateur qui a passé des années comme l’un des investisseurs providentiels les plus réputés de la Silicon Valley – soutenant Figma, Notion et Ramp, entre autres – avant de décider que Physical Intelligence était l’entreprise qu’il recherchait. Ce pedigree a aidé la startup à attirer des fonds institutionnels importants, même si elle a refusé d’offrir aux investisseurs un calendrier de commercialisation.
La société serait désormais en discussion pour un nouveau cycle qui doublerait presque ce chiffre pour le porter à 11 milliards de dollars. L’équipe a refusé de commenter.

