Dans une apparition récente que nous avons possible, un podcast co-organisé par la co-fondatrice de LinkedIn, Reid Hoffman, le PDG de Google Deepmind Demis Hassabis a déclaré que Google prévoit de combiner ses modèles Gemini AI avec ses modèles de génération vidéo VEO pour améliorer la compréhension du monde physique.
« Nous avons toujours construit des Gémeaux, notre modèle de fondation, pour être multimodal dès le début », a déclaré Hassabis, « et la raison pour laquelle nous l’avons fait (c’est parce que) nous avons une vision de cette idée d’un assistant numérique universel, un assistant qui … vous aide réellement dans le monde réel. »
L’industrie de l’IA se déplace progressivement vers des modèles «OMNI», si vous voulez – des modèles qui peuvent comprendre et synthétiser des formes de médias Mary. Les nouveaux modèles de Gémeaux de Google peuvent générer de l’audio ainsi que des images et du texte, tandis que le modèle par défaut d’Openai dans Chatgpt peut créer nativement des images, y compris la race, l’art de style Ghibli-Studio Ghibli-. Amazon a également annoncé son intention de lancer un modèle «tout à toute autre» plus tard cette année.
Ces modèles OMNI nécessitent beaucoup de données de formation – images, vidéos, audio, texte, etc. Hassabis a laissé entendre que les données vidéo de VEO proviennent principalement de YouTube, une plate-forme que Google possède.
« Basalement, en regardant des vidéos YouTube – beaucoup de vidéos YouTube – (Veo 2) peuvent comprendre, vous savez, la physique du monde », a déclaré Hassabis.
Google avait précédemment déclaré à TechCrunch que ses modèles «peuvent être» formés sur le contenu YouTube «certains» conformément à son évolution avec les créateurs de YouTube. Il semblerait que Google ait élargi ses conditions de service l’année dernière en partie pour permettre à l’entreprise de puiser plus de données pour former ses modèles d’IA.