Google dévoile Gemini Omni

Message par **chtimi054** » jeu. 21 mai 2026 08:33

Google dévoile Gemini Omni, l'IA qui crée des vidéos à partir de tout

Google lance Gemini Omni Flash, le premier modèle de sa nouvelle famille d'IA Omni. Conçu pour être nativement multimodal, il permet de créer ou d'éditer des vidéos à partir de texte, d'images, de sons ou même d'autres clips. L'outil promet une cohérence visuelle et une compréhension de la physique, tout en intégrant des garde-fous contre les deepfakes pour assurer un usage responsable.

La firme de Mountain View a profité de sa conférence annuelle Google I/O pour lever le voile sur une avancée majeure dans le domaine de l'IA générative : Gemini Omni. Présenté comme une étape décisive, ce nouveau type de modèle vise à générer n'importe quel contenu à partir de n'importe quelle source. Le premier outil issu de cette famille, baptisé Gemini Omni Flash, se concentre pour l'instant sur la production et l'édition vidéo, avec des capacités impressionnantes.

Comment fonctionne cette nouvelle IA multimodale ?

La promesse de Gemini Omni est de simplifier radicalement la création de contenu. Initié par Google, le projet permet à l'utilisateur de fournir un mélange d'entrées : une image pour définir un personnage, un fichier audio pour dicter le rythme, ou du texte pour décrire la scène. L'IA assemble ensuite tous ces éléments pour produire un clip cohérent.

Plus encore, l'édition se fait de manière conversationnelle. Il suffit de parler à l'IA pour lui demander de modifier le décor, d'ajouter un personnage, de changer l'angle de la caméra ou de transformer l'action. Chaque instruction s'ajoute à la précédente, et le modèle est conçu pour maintenir une continuité visuelle, en se souvenant du contexte et des éléments déjà présents dans la scène.

Quelle est la différence avec les autres générateurs vidéo ?

Contrairement à des modèles comme Veo, un autre outil de la firme spécialisé dans le « text-to-video », Gemini Omni se positionne comme un véritable modèle multimodal. Il ne se contente pas de créer une vidéo à partir d'un prompt écrit, il « remixe » la réalité en combinant diverses sources. L'entreprise insiste sur sa compréhension intuitive de la physique, assurant que les scènes générées respectent la gravité, la cinétique ou la dynamique des fluides.

Cette capacité à maintenir la cohérence est un argument clé. Là où certains concurrents peinent à conserver l'apparence d'un personnage d'un plan à l'autre, Gemini Omni est censé garantir que les personnages et les décors restent stables au fil des modifications. L'IA s'appuie sur les connaissances générales de Gemini pour produire des résultats crédibles, que ce soit en matière de culture ou de science.

Quelles sont les garanties contre les dérives et qui peut l'utiliser ?

Conscient des risques liés aux deepfakes, un enjeu majeur pour l'intelligence artificielle, la société a intégré des mesures de sécurité. Chaque contenu produit par Omni intègre un filigrane numérique invisible appelé SynthID. Ce marqueur permet de vérifier si une vidéo a été générée par une IA via une simple recherche. De plus, la possibilité de cloner sa propre voix pour créer des avatars numériques est pour l'instant encadrée.

Le déploiement de Gemini Omni Flash a déjà commencé. Il est accessible aux abonnés Google AI Plus, Pro et Ultra via l'application Gemini et l'outil Google Flow. Les utilisateurs de YouTube Shorts et de l'application YouTube Create peuvent également en profiter gratuitement, marquant une volonté de démocratiser rapidement cette technologie. Une version plus puissante, Omni Pro, est prévue pour les développeurs et les entreprises.
merci à GNT