Des chercheurs de Google transforment une photo en vidéo AI réaliste - Gamerush

Des chercheurs de Google transforment une photo en vidéo AI réaliste

Google trouve une nouvelle façon de transformer une photo en vidéo générée par l’IA

Les chercheurs de Google ont découvert une méthode innovante pour transformer une simple photo d’un individu en une vidéo générée par l’IA. Cette technologie, nommée Vlogger, permet de créer des vidéos de personnes à partir d’une seule image fixe. Cela ouvre la voie à des applications telles que la génération de vidéos de quelqu’un parlant à partir d’un texte d’entrée, ou la modification des mouvements de la bouche d’une personne pour correspondre à une piste audio dans une langue différente de celle d’origine.

Il est important de noter que cette technologie pourrait également être utilisée de manière malveillante, comme pour l’usurpation d’identité ou la diffusion de fausses informations. C’est un rappel que l’IA, malgré ses avantages, peut aussi avoir des conséquences effrayantes.

Comment fonctionne cette technologie ?

La technologie Vlogger est assez intéressante. Les chercheurs de Google qui ont publié le document expliquent comment l’IA prend une seule image d’entrée d’un humain et, avec un fichier audio, produit à la fois des mouvements faciaux et corporels pour correspondre.

Voici quelques utilisations potentielles de cette technologie :

  • Édition de vidéo, en particulier les expressions faciales du sujet de la vidéo.
  • Changement de la piste audio d’une vidéo pour une version doublée en langue étrangère et synchronisation des mouvements faciaux de la personne avec la piste audio.

La technologie fonctionne en deux étapes : « 1) un modèle de diffusion humain-à-3d-motion stochastique, et 2) une nouvelle architecture basée sur la diffusion qui augmente les modèles texte-à-image avec des contrôles temporels et spatiaux. Cette approche permet la génération de vidéos de haute qualité de longueur variable, qui sont facilement contrôlables grâce à des représentations de haut niveau des visages et des corps humains », explique la page GitHub.

La technologie n’est pas parfaite

Il faut admettre que la technologie n’est pas parfaite. Dans les exemples donnés, les mouvements de la bouche ont certaines qualités communes à travers le contenu vidéo généré par l’IA. C’est aussi assez effrayant par moments, comme l’ont noté les utilisateurs répondant à un fil de discussion sur la technologie par EyeingAI sur X.

En revanche, Vlogger n’a pas besoin de tromper tout le monde, ni même de tromper qui que ce soit, pour être utile. De même, si c’était une technologie plus parfaite, il serait encore plus inquiétant de penser à la façon dont cette technologie pourrait être utilisée pour créer de faux profonds, diffuser de fausses informations ou voler des identités.

Un jour, nous y arriverons, et j’espère que nous aurons une meilleure idée de comment gérer ces problèmes d’ici là.

Pour suivre l’actualité des jeux vidéos et du streaming, rejoignez la newsletter Gamerush.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut