Odyssey, une startup fondée par les pionniers autonomes Oliver Cameron et Jeff Hawke, a développé un modèle d’IA qui permet aux utilisateurs de «interagir» avec la vidéo en streaming.
Disponible sur le Web dans une «démo précoce», le modèle génère et diffuse des cadres vidéo tous les 40 millisecondes. Via les contrôles de base, les téléspectateurs peuvent explorer des domaines dans la vidéo, similaire au jeu vidéo de lecture 3D.
«Compte tenu de l’état actuel du monde, d’une action entrante et d’une histoire des États et des actions, le modèle tente de prédire le prochain état du monde», explique Odyssey dans un article de blog. « Alimentation C’est un nouveau modèle mondial, des capacités de démonsage comme la génération de pixels qui se sentent réalistes, la cohérence de l’espace de maintenance, l’apprentissage des actions de la vidéo et la sortie de flux vidéo cohérents pendant 5 minutes ou plus. »
Un certain nombre de startups et de grandes entreprises technologiques courent après les modèles mondiaux, notamment DeepMind, le chercheur de l’IA en influence Fei-Fei Li’s World Labs, Microsoft et Decart. Ils croient que les modèles mondiaux pourraient un jour être utilisés pour créer des médias interactifs, tels que des jeux et des films, et exécuter des simulations réalistes comme la formation autour des robots.
Mais les créatifs ont des sentiments mitigés sur la technologie. Une récente enquête filaire a révélé que des studios de jeu comme Activision Blizzard, qui a licencié des dizaines de travailleurs, utilisent des coins coupés et un combat de combat. Et une étude en 2024 commandée par la Guilde Animation, un syndicat représentant des animateurs et des dessinateurs hollywoodiens, a estimé que plus de 100 000 emplois de cinéma, de télévision et d’animation basés aux États-Unis seront perturbés par l’IA dans les prochains mois.
Pour sa part, Odyssey s’engage à collaborer avec des professionnels créatifs – pas les remplacer.
«Vidéo interactive… ouvre la porte à des formes de divertissement entièrement nouvelles, où des histoires peuvent être générées et explorées à la demande, exemptes des contraintes et des coûts de la production traditionnelle», écrit l’entreprise dans son article de blog. «Au fil du temps, nous pensons que tout ce qui est vidéo aujourd’hui – divertissement, publicités, éducation, formation, voyage et plus – évoluera en vidéo interactive, toutes alimentées par Odyssey.
La démo d’Odyssey est un peu rougeur les bords, que la société reconnaît dans son poste. Les environs génèrent le modèle sont flous et déformés et instables dans le sens où leurs dispositions restent toujours les mêmes. Avancez dans une direction pendant un certain temps ou retournez-vous, et l’environnement pourrait soudainement être différent.
Mais la société promet d’improviser rapidement le modèle, qui peut actuellement diffuser des vidéos jusqu’à 30 images par seconde de grappes de GPU NVIDIA H100 au coût de 1 $ à 2 $ par «heure d’utilisateur».
«En regardant vers l’avenir, nous recherchons des représentations mondiales plus riches qui capturent la dynamique beaucoup plus fidèlement, tout en augmentant la stabilité temporelle et l’État persistent», écrit Odyssey dans son article. «En parallèle, nous élargissons l’espace d’action de l’interaction de mouvement vers le monde, apprenant des actions ouvertes à partir de vidéos à grande échelle.»
Odyssey adopte une approche différente que de nombreux laboratoires d’IA dans l’espace de modélisation du monde. Il a conçu un système CAMRA monté sur sac à dos à 360 degrés pour capturer des paysages du monde réel, qui, selon Odyssey, peut servir de base à des modèles de haute qualité que les modèles formés uniquement sur des données publiques.
À ce jour, Odyssey a levé 27 millions de dollars auprès des investisseurs, notamment EQT Ventures, GV et Air Street Capital. Ed Catmull, l’un des co-fondateurs de Pixar et président de Train de Walt Disney Animation Studios, se trouve au conseil d’administration de la startup.
En décembre dernier, Odyssey a déclaré qu’il travaillait sur un logiciel qui permet aux créateurs de charger des scènes générées par ses modèles en outils tels que Unreal Engine, Blender et Adobe After Effects afin qu’ils puissent être édités à la main.