Gemini Omni de Google transforme les images, l'audio et le texte en vidéo

Lorsque Google a lancé Gemini il y a trois ans, l’objectif était de créer un grand modèle de langage multimodal – un réseau neuronal unique formé sur le texte, l’image, l’audio et la vidéo et capable de générer du contenu dans n’importe lequel de ces formats.

Aujourd’hui, lors de sa conférence des développeurs Google I/O, la société a franchi une étape concrète vers cet objectif avec Gemini Omni, une nouvelle famille de modèles multimodaux qui, selon le PDG de Google, Sundar Pichai, seront capables de « créer n’importe quoi à partir de n’importe quelle entrée ».

Omni commencera par la vidéo. Les utilisateurs peuvent désormais combiner des images, de l’audio, de la vidéo et du texte, et plutôt que de simplement assembler ces entrées, Omni les analyse toutes pour produire une sortie cohérente. Le résultat est des vidéos de haute qualité qui reflètent une compréhension de la physique, de la culture, de l’histoire et de la science.

Omni permet également aux utilisateurs de modifier des photos avec des commandes en texte brut plutôt qu’avec un logiciel d’édition complexe, similaire à Nano Banana de Google.

Google dispose déjà d’un modèle vidéo dédié, Veo, qui permet aux utilisateurs de transformer du texte et des images en vidéos, et même de diriger et de personnaliser des avatars. Mais Nicole Brichtova, directrice de la gestion des produits chez Google DeepMind, affirme que la version d’aujourd’hui est plus qu’une mise à jour de Veo : « C’est la prochaine étape vers la progression vers la combinaison de l’intelligence de Gemini avec les capacités de rendu de nos modèles multimédias. »

Un exemple que Koray Kavukcuoglu, technologue en chef de DeepMind, a donné aux journalistes lors d’un point de presse lundi : lorsqu’Omni a reçu une invite simple comme « une explication en argile du repliement des protéines », il a rapidement rendu une vidéo d’explication en stop motion avec une voix off qui disait : « Les protéines commencent comme des chaînes d’acides aminés. Elles se plient en motifs comme l’hélice alpha et des sections plates appelées feuilles bêta, formant une forme tridimensionnelle parfaite. «

La vision à long terme d’Omni est plus large, impliquant que le modèle soit utilisé pour faire des choses comme générer des images à partir de l’audio ou de l’audio à partir de la vidéo.

« Lorsque nous avons annoncé Gemini pour la première fois, c’était notre premier modèle d’IA à être nativement multimodal », a déclaré Pichai lors du briefing. « Nous savions que l’entraîner sur une combinaison de texte, de code, d’audio, d’images et de vidéo lui donnerait une compréhension plus profonde du monde. Avec les modèles mondiaux, l’IA passe de la prédiction du texte à la simulation de la réalité. Gemini Omni est la prochaine étape dans cette direction. »

Dans le cadre de cette version, les utilisateurs pourront également créer des vidéos avec leurs propres avatars numériques – quelque chose qu’OpenAI a popularisé sur son application Sora, aujourd’hui disparue, avec Cameos. Pour éviter les deepfakes, les utilisateurs devront passer par une intégration de produit dédiée, qui implique de s’enregistrer et de prononcer une série de chiffres, selon Brichtova. L’avatar est ensuite stocké pour une utilisation ultérieure.

De plus, toutes les vidéos créées avec Omni incluront le filigrane numérique SynthID de Google, qui permet aux utilisateurs de vérifier si les vidéos ont été générées via les produits Gemini.

Le premier modèle de la famille est Gemini Omni Flash, qui sera déployé aujourd’hui sur l’application Gemini, YouTube Shorts et le studio de création AI Flow. Flash sera capable de restituer 10 secondes de vidéo, ce qui, selon Brichtova, n’est pas une limitation du modèle, mais plutôt une décision basée à la fois sur le désir de le mettre entre plus de mains et sur l’anticipation que la plupart des utilisateurs ne voudront pas encore faire des vidéos beaucoup plus longues. Cependant, des durées vidéo plus longues sont en préparation dans un avenir proche.

Google semble présenter Omni Flash comme un outil grand public. Les exemples que Brichtova et Gabe Barth-Maron, ingénieur de recherche chez DeepMind, ont donnés lors d’un appel avec TechCrunch sur l’utilisation des avatars numériques étaient tous personnels : réaliser une vidéo de vous-même en train de gagner un prix ou d’aller sur la lune, ou de supprimer un passant de l’arrière-plan d’une vidéo que vous avez prise en vacances.

Barth-Maron l’a dit plus simplement : « Ce sont comme des mèmes personnalisés. »

« Nous nous sommes vraiment efforcés de rendre cela facile à utiliser pour les consommateurs », a déclaré Brichtova. « Peu de modèles vidéo ont franchi ce gouffre avec les consommateurs, c’est donc notre rôle pour y parvenir. »

La facilité d’utilisation s’accompagne d’une mise en garde : Brichtova et Barth-Maron ont noté que les invites d’édition devront être très spécifiques, sinon Omni risque de suréditer ou de modifier involontairement les éléments que l’utilisateur souhaitait conserver – un problème que les utilisateurs de Nano Banana auraient rencontré.

Malgré l’attention portée aux consommateurs à court terme, les implications commerciales et créatives d’Omni sont évidentes, et Google rendra Omni disponible via API dans les semaines à venir. L’outil de génération d’avatars – une fonctionnalité disponible aujourd’hui sur Shorts – est quelque chose que Google s’attend à ce que les créateurs de contenu reprennent. Mais plus largement, un flux de travail multimodal de bout en bout pourrait être transformateur pour les annonceurs et les cinéastes.

La startup Luma AI construit quelque chose de similaire, un outil agent capable de générer une campagne publicitaire complète basée sur un court brief et une image de produit, alimenté par son propre modèle « unifié ».

« Nous sommes en fait assez fiers des capacités de rendu de texte du modèle, qui sont vraiment utiles pour des choses comme la publicité », a déclaré Brichtova. « Si vous voulez un produit quelque part, ou même juste un slogan, il doit être précis… Nous prévoyons certainement que les cinéastes et d’autres types de créateurs utiliseront également ce modèle. »

Les cas d’utilisation plus professionnels pourraient être mieux servis par le modèle Omni Pro, qui devrait mieux fonctionner dans toutes les tâches Omni. Google n’a pas encore précisé quand il sortirait Pro, mais Brichtova a déclaré que cela se produira lorsque « nous sentirons que nous sommes à un point où nous avons un changement radical par rapport à Flash ».

Tenez-vous au courant du reste des grandes nouvelles de Google IO 2026

La recherche Google telle que vous la connaissez est terminée

Google met à jour l’application Gemini pour prendre en charge ChatGPT et Claude

Google présente Gemini Spark, un assistant d’agent 24h/24 et 7j/7 avec intégration Gmail

Comment utiliser les nouveaux agents d’information de Google

Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.

Source link

What's Hot

« Ask YouTube » apporte la recherche conversationnelle basée sur l’IA à la vidéo et ajoute Gemini Omni aux Shorts

Le président Trump ordonne une révision des barrières bancaires pour les sociétés de technologie financière

La conférence I/O de Google a montré comment l’entreprise se réinvente complètement pour l’IA

Gemini Omni de Google transforme les images, l’audio et le texte en vidéo — et ce n’est que le début

« Ask YouTube » apporte la recherche conversationnelle basée sur l’IA à la vidéo et ajoute Gemini Omni aux Shorts

Google vient de se déclarer candidat à la conception d’IA à l’IO 2026

Vous pouvez désormais parler à votre boîte de réception Gmail, comme on le voit lors de Google IO 2026

Comment utiliser les nouveaux agents IA de Google pour aller au-delà de vos recherches standards

Le président Trump ordonne une révision des barrières bancaires pour les sociétés de technologie financière

InterDigital étend sa campagne de licences IoT avec un nouvel accord de brevet fintech (IDCC)

Mouro Capital lève 400 millions de dollars pour développer la croissance de la fintech

Top Insights

« Ask YouTube » apporte la recherche conversationnelle basée sur l’IA à la vidéo et ajoute Gemini Omni aux Shorts

Le président Trump ordonne une révision des barrières bancaires pour les sociétés de technologie financière

La conférence I/O de Google a montré comment l’entreprise se réinvente complètement pour l’IA

What's Hot

Gemini Omni de Google transforme les images, l’audio et le texte en vidéo — et ce n’est que le début

Tenez-vous au courant du reste des grandes nouvelles de Google IO 2026

Related Posts

Subscribe to Updates