Le dernier genre vidéo de Google, Veo 3, peut créer de l’audio pour accompagner les clips qu’il génère.
Nous tuons lors de la conférence Google I / O 2025 Developer, Google a dévoilé VEO 3, qui, selon la société, peut générer des effets sonores, des bruits de fond et même un dialogue pour accompagner les vidéos qu’elle crée. VEO 3 améliore également son prédécesseur, VEO 2, en termes de qualité de concentration qu’il peut générer, selon Google.
VEO 3 est disponible à partir de mardi dans l’application Gemini Chatbot de Google pour les abonnés aux 249,99 $ par mois AI Ultra Plan, où il peut être invite avec du texte ou une image.
« Pour la première fois, nous sortons de l’ère silencieuse de la génération de vidéos », a déclaré Demis Hassabis, PDG de Google Deepmind, la division R&D de l’IA de Google, lors d’un point de presse. « (Vous pouvez donner à VEO 3) une invite décrivant des personnages et un environnement, et suggérer un dialogue avec une description de la façon dont vous voulez qu’elle sonne. »
La grande disponibilité des outils pour construire des générateurs de vidéos a conduit à une telle explosion de prestataires que l’espace est saturé. Les startups comprenaient la piste, les Lightricks, Genmo, Pika, Higgsfield, Kling et Luma, ainsi que des géants de la technologie tels qu’Openai et Alibaba, publient des modèles à un clip rapide. Dans de nombreux cas, peu distingue un modèle d’un autre.
La sortie audio devrait être un grand différenciateur pour VEO 3, si Google peut livrer son promis. Les outils générateurs de son-puissance AI-Power ne sont pas nouveaux, pas plus que les modèles pour créer des effets sonores vidéo. Mais Veo 3 peut comprendre les pixels bruts de ses vidéos et Sync Généré par des clips automatiquement, par Google.
Voici un exemple de clip du modèle:
Veo 3 a probablement été rendu possible par les travaux antérieurs de Deepmind dans l’IA «Video-to-Audio». En juin dernier, DeepMind a révélé qu’il s’agissait du développement de la technologie AI pour générer des bandes sonores pour des vidéos en formant un modèle sur la combinaison de sons et de transcriptions de dialogue ainsi que des clips vidéo.
DeepMind ne dira pas exactement où il s’approvisionne le contenu pour former VEO 3, mais YouTube est une forte possibilité. Google possède YouTube, et DeepMind a déjà déclaré à TechCrunch que les modèles Google comme Veo «peuvent» être formés sur du matériel YouTube.
Pour atténuer le risque de Deepfakes, DeepMind dit qu’il utilise sa technologie de filigrane propriétaire, synthétique, pour intégrer des marqueurs invisibles dans les cadres VEO 3 génère.
Alors que des entreprises comme Google Pitch Veo 3 en tant qu’outils créatifs puissants, de nombreux artistes comprennent les méfiants – elles menacent de bouleverser les industries entre les entretiens. À 2024, l’étude commandée par la Guilde d’animation, un syndicat représentant des animateurs et des dessinateurs hollywoodiens, que plus de 100 000 emplois de cinéma, de télévision et d’animation basés aux États-Unis seront perturbés par l’IA d’ici 2026.
Google a également déployé aujourd’hui de nouvelles capacités pour VEO 2, comprenait une fonctionnalité qui permet aux utilisateurs de donner le modèle de caractères, de scènes, d’objets et de styles pour une meilleure cohérence. Le dernier VEO 2 peut comprendre les mouvements de la caméra comme les rotations, les dollies et les zooms, et il permet aux utilisateurs d’ajouter ou d’effacer des objets à partir de vidéos ou d’élargir les cadres de clips pour, par exemple, de les transformer du portrait en paysage.
Google dit que toutes ces nouvelles capacités Veo 2 arriveront sur sa plate-forme API Green AI dans la semaine à venir.