Meta mercredi a dévoilé son nouveau modèle V-Jepa 2 AI, un «modèle mondial» conçu pour aider les agents de l’IA à comprendre le monde les entoure.
V-Jépa 2 est une extension du modèle V-Jepa que Meta a publié l’année dernière, qui a été formée sur plus d’un million d’heures de vidéo. Ces données d’entraînement sont censées aider les robots ou autres agents d’IA à opérer dans le monde physique, à comprendre et à prédire comment des concepts comme la gravité auront un impact sur ce qui est le prochain dans une séquence.
Ce sont les types de connexions de bon sens que les petits enfants et les animaux font comme leur développement du cerveau – lorsque vous jouez à aller chercher avec un chien, par exemple, le chien comprendra (espérons) comment rebondir une balle sur le sol fera le rebondir vers le haut, ou comment il devrait fonctionner là où il pense que le ballon atterrira, et non là où le ballon est à la première fois.
Meta représente l’exemple lorsqu’un robot peut être confronté, par exemple, avec le point de se voir de tenir un plat et une spatule et de marcher vers un poêle avec des œufs de coood. L’IA peut prédire qu’une prochaine action très probable serait d’utiliser la spatule pour déplacer les œufs vers l’appartement.
Selon Meta, V-Jepa 2 est 30x plus rapide que le modèle COSMOS de Nvidia, qui essaie également d’améliorer l’intelligence liée au monde physique. Cependant, Meta peut évaluer ses propres modèles en fonction de différents repères de Nvidia.
« Nous pensons que les modèles mondiaux introduiseront une nouvelle ère pour la robotique, permettant aux agents d’IA du monde réel d’aider aux tâches et aux tâches physiques sans avoir besoin de données astronomiques de données d’entraînement robotique », a expliqué le scientifique en chef de l’IA de Meta, Yann Lecun dans une vidéo.