Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

« Ask YouTube » apporte la recherche conversationnelle basée sur l’IA à la vidéo et ajoute Gemini Omni aux Shorts

mai 20, 2026

Le président Trump ordonne une révision des barrières bancaires pour les sociétés de technologie financière

mai 19, 2026

La conférence I/O de Google a montré comment l’entreprise se réinvente complètement pour l’IA

mai 19, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Gemini Omni de Google transforme les images, l’audio et le texte en vidéo — et ce n’est que le début
Startups

Gemini Omni de Google transforme les images, l’audio et le texte en vidéo — et ce n’est que le début

JohnBy Johnmai 19, 2026Aucun commentaire6 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Lorsque Google a lancé Gemini il y a trois ans, l’objectif était de créer un grand modèle de langage multimodal – un réseau neuronal unique formé sur le texte, l’image, l’audio et la vidéo et capable de générer du contenu dans n’importe lequel de ces formats.

Aujourd’hui, lors de sa conférence des développeurs Google I/O, la société a franchi une étape concrète vers cet objectif avec Gemini Omni, une nouvelle famille de modèles multimodaux qui, selon le PDG de Google, Sundar Pichai, seront capables de « créer n’importe quoi à partir de n’importe quelle entrée ».

Omni commencera par la vidéo. Les utilisateurs peuvent désormais combiner des images, de l’audio, de la vidéo et du texte, et plutôt que de simplement assembler ces entrées, Omni les analyse toutes pour produire une sortie cohérente. Le résultat est des vidéos de haute qualité qui reflètent une compréhension de la physique, de la culture, de l’histoire et de la science.

Omni permet également aux utilisateurs de modifier des photos avec des commandes en texte brut plutôt qu’avec un logiciel d’édition complexe, similaire à Nano Banana de Google.

Google dispose déjà d’un modèle vidéo dédié, Veo, qui permet aux utilisateurs de transformer du texte et des images en vidéos, et même de diriger et de personnaliser des avatars. Mais Nicole Brichtova, directrice de la gestion des produits chez Google DeepMind, affirme que la version d’aujourd’hui est plus qu’une mise à jour de Veo : « C’est la prochaine étape vers la progression vers la combinaison de l’intelligence de Gemini avec les capacités de rendu de nos modèles multimédias. »

Un exemple que Koray Kavukcuoglu, technologue en chef de DeepMind, a donné aux journalistes lors d’un point de presse lundi : lorsqu’Omni a reçu une invite simple comme « une explication en argile du repliement des protéines », il a rapidement rendu une vidéo d’explication en stop motion avec une voix off qui disait : « Les protéines commencent comme des chaînes d’acides aminés. Elles se plient en motifs comme l’hélice alpha et des sections plates appelées feuilles bêta, formant une forme tridimensionnelle parfaite. « 

La vision à long terme d’Omni est plus large, impliquant que le modèle soit utilisé pour faire des choses comme générer des images à partir de l’audio ou de l’audio à partir de la vidéo.

« Lorsque nous avons annoncé Gemini pour la première fois, c’était notre premier modèle d’IA à être nativement multimodal », a déclaré Pichai lors du briefing. « Nous savions que l’entraîner sur une combinaison de texte, de code, d’audio, d’images et de vidéo lui donnerait une compréhension plus profonde du monde. Avec les modèles mondiaux, l’IA passe de la prédiction du texte à la simulation de la réalité. Gemini Omni est la prochaine étape dans cette direction. »

Dans le cadre de cette version, les utilisateurs pourront également créer des vidéos avec leurs propres avatars numériques – quelque chose qu’OpenAI a popularisé sur son application Sora, aujourd’hui disparue, avec Cameos. Pour éviter les deepfakes, les utilisateurs devront passer par une intégration de produit dédiée, qui implique de s’enregistrer et de prononcer une série de chiffres, selon Brichtova. L’avatar est ensuite stocké pour une utilisation ultérieure.

De plus, toutes les vidéos créées avec Omni incluront le filigrane numérique SynthID de Google, qui permet aux utilisateurs de vérifier si les vidéos ont été générées via les produits Gemini.

Le premier modèle de la famille est Gemini Omni Flash, qui sera déployé aujourd’hui sur l’application Gemini, YouTube Shorts et le studio de création AI Flow. Flash sera capable de restituer 10 secondes de vidéo, ce qui, selon Brichtova, n’est pas une limitation du modèle, mais plutôt une décision basée à la fois sur le désir de le mettre entre plus de mains et sur l’anticipation que la plupart des utilisateurs ne voudront pas encore faire des vidéos beaucoup plus longues. Cependant, des durées vidéo plus longues sont en préparation dans un avenir proche.

Google semble présenter Omni Flash comme un outil grand public. Les exemples que Brichtova et Gabe Barth-Maron, ingénieur de recherche chez DeepMind, ont donnés lors d’un appel avec TechCrunch sur l’utilisation des avatars numériques étaient tous personnels : réaliser une vidéo de vous-même en train de gagner un prix ou d’aller sur la lune, ou de supprimer un passant de l’arrière-plan d’une vidéo que vous avez prise en vacances.

Barth-Maron l’a dit plus simplement : « Ce sont comme des mèmes personnalisés. »

« Nous nous sommes vraiment efforcés de rendre cela facile à utiliser pour les consommateurs », a déclaré Brichtova. « Peu de modèles vidéo ont franchi ce gouffre avec les consommateurs, c’est donc notre rôle pour y parvenir. »

La facilité d’utilisation s’accompagne d’une mise en garde : Brichtova et Barth-Maron ont noté que les invites d’édition devront être très spécifiques, sinon Omni risque de suréditer ou de modifier involontairement les éléments que l’utilisateur souhaitait conserver – un problème que les utilisateurs de Nano Banana auraient rencontré.

Crédits image : Google

Malgré l’attention portée aux consommateurs à court terme, les implications commerciales et créatives d’Omni sont évidentes, et Google rendra Omni disponible via API dans les semaines à venir. L’outil de génération d’avatars – une fonctionnalité disponible aujourd’hui sur Shorts – est quelque chose que Google s’attend à ce que les créateurs de contenu reprennent. Mais plus largement, un flux de travail multimodal de bout en bout pourrait être transformateur pour les annonceurs et les cinéastes.

La startup Luma AI construit quelque chose de similaire, un outil agent capable de générer une campagne publicitaire complète basée sur un court brief et une image de produit, alimenté par son propre modèle « unifié ».

« Nous sommes en fait assez fiers des capacités de rendu de texte du modèle, qui sont vraiment utiles pour des choses comme la publicité », a déclaré Brichtova. « Si vous voulez un produit quelque part, ou même juste un slogan, il doit être précis… Nous prévoyons certainement que les cinéastes et d’autres types de créateurs utiliseront également ce modèle. »

Les cas d’utilisation plus professionnels pourraient être mieux servis par le modèle Omni Pro, qui devrait mieux fonctionner dans toutes les tâches Omni. Google n’a pas encore précisé quand il sortirait Pro, mais Brichtova a déclaré que cela se produira lorsque « nous sentirons que nous sommes à un point où nous avons un changement radical par rapport à Flash ».

Tenez-vous au courant du reste des grandes nouvelles de Google IO 2026

La recherche Google telle que vous la connaissez est terminée

Google met à jour l’application Gemini pour prendre en charge ChatGPT et Claude

Google présente Gemini Spark, un assistant d’agent 24h/24 et 7j/7 avec intégration Gmail

Comment utiliser les nouveaux agents d’information de Google

Lorsque vous achetez via des liens dans nos articles, nous pouvons gagner une petite commission. Cela n’affecte pas notre indépendance éditoriale.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleL’investisseur Jeremy Grantham lève le rideau sur les guerres de l’IA, révélant un « monde de concurrence brutal »
Next Article La recherche Google telle que vous la connaissez est terminée
John
  • Website

Related Posts

« Ask YouTube » apporte la recherche conversationnelle basée sur l’IA à la vidéo et ajoute Gemini Omni aux Shorts

mai 20, 2026

Google vient de se déclarer candidat à la conception d’IA à l’IO 2026

mai 19, 2026

Vous pouvez désormais parler à votre boîte de réception Gmail, comme on le voit lors de Google IO 2026

mai 19, 2026

Comment utiliser les nouveaux agents IA de Google pour aller au-delà de vos recherches standards

mai 19, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Le président Trump ordonne une révision des barrières bancaires pour les sociétés de technologie financière

mai 19, 2026

InterDigital étend sa campagne de licences IoT avec un nouvel accord de brevet fintech (IDCC)

mai 19, 2026

Mouro Capital lève 400 millions de dollars pour développer la croissance de la fintech

mai 19, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

« Ask YouTube » apporte la recherche conversationnelle basée sur l’IA à la vidéo et ajoute Gemini Omni aux Shorts

mai 20, 2026

Le président Trump ordonne une révision des barrières bancaires pour les sociétés de technologie financière

mai 19, 2026

La conférence I/O de Google a montré comment l’entreprise se réinvente complètement pour l’IA

mai 19, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.