Microsoft AI anime une photo en vidéo parlante

Par Marcílio Santos Infor Et Électronique, Intelligence Artificielle, Technologie Commentaires fermés

“Le modèle VASA-1 d’IA peut générer des vidéos réalistes de tête parlante à partir d’une seule photo de référence, synchronisée sur une piste audio. Microsoft Research Asia.”

“Microsoft Research Asia a dévoilé un modèle d’IA capable de produire des vidéos deepfake incroyablement réalistes à partir d’une seule image et d’un extrait audio. Ce développement soulève des préoccupations quant à la crédibilité du contenu visuel et auditif en ligne.

L’IA surpasse régulièrement les humains dans divers tests, ce qui inquiète beaucoup quant au remplacement des emplois par des algorithmes. Nous avons vu des appareils intelligents ordinaires évoluer en outils essentiels, en assistant dans les tâches quotidiennes et en améliorant la productivité. Certains modèles d’IA peuvent même produire des sons réalistes pour des vidéos silencieuses et générer du contenu vidéo à partir d’entrées textuelles.

Le cadre VASA-1 de Microsoft marque une avancée significative dans ce domaine.”

Maîtriser le réalisme avec VASA-1

“Entraîné sur environ 6 000 visages réels parlants du jeu de données VoxCeleb2, VASA-1 peut créer des vidéos très réalistes. Les sujets animés se synchronisent non seulement avec précision avec l’audio fourni, mais affichent également une variété d’expressions faciales et des mouvements naturels de la tête, le tout à partir d’une seule image statique.

Bien que similaire au modèle de diffusion Audio2Video d’Alibaba, VASA-1 se distingue par un réalisme et une précision encore plus grands. Il peut générer des vidéos synchronisées en 512×512 pixels et 40 images par seconde avec une latence minimale.”

Le modèle d’IA VASA-1 peut générer des vidéos effrayantes d’une grande réalité qui peuvent non seulement être synchronisées sur une piste audio vocale fournie, mais qui incluent également des expressions faciales et des mouvements naturels de la tête, le tout à partir d’un simple cliché statique de la tête. Microsoft Research Asia.

“Alors que les démonstrations du projet utilisaient principalement des photos de référence générées par l’IA à partir de StyleGAN2 ou DALL-E, un exemple remarquable du monde réel a montré la capacité du cadre à aller au-delà de ses données d’entraînement : une Mona Lisa qui peut rapper !

La page du projet présente de nombreux exemples de vidéos parlantes et chantantes créées à partir d’une seule image associée à une piste audio. De plus, l’outil offre des paramètres optionnels pour ajuster les “dynamiques faciales et les poses de tête”, y compris les émotions, les expressions, la distance de la caméra et la direction du regard. Cette fonctionnalité offre une flexibilité significative.”

Visages parlants générés par l’IA : une redéfinition des relations humain-IA

Selon l’article présentant cette réalisation, l’avènement des visages parlants générés par l’IA ouvre la voie à un avenir où la technologie améliore les interactions humain-humain et humain-IA.

Cette technologie a le potentiel d’améliorer la communication numérique, d’accroître l’accessibilité pour les personnes ayant des difficultés de communication, de révolutionner l’éducation grâce à un tutorat interactif par IA, et d’offrir un soutien thérapeutique et social dans le domaine de la santé.

Bien que ces avancées soient louables, les chercheurs reconnaissent également les risques de mauvais usage. Dans une ère où il est difficile de distinguer le vrai du faux dans les actualités en ligne, imaginez disposer d’un outil permettant de faire dire n’importe quoi à n’importe qui.

Cela pourrait aller de farces inoffensives, comme recevoir un appel FaceTime d’une célébrité bien-aimée, à des actes plus sinistres, tels que piéger quelqu’un pour un crime avec un aveu fabriqué, escroquer des individus en se faisant passer pour un membre de la famille en détresse, ou manipuler des soutiens politiques pour des agendas controversés, le tout présenté de manière convaincante.

Cependant, le contenu généré par le modèle VASA-1 présente des “artefacts identifiables”, et les chercheurs prévoient de ne pas le rendre public “jusqu’à ce que nous soyons convaincus que la technologie sera utilisée de manière responsable et conforme aux réglementations appropriées”.

L’article de recherche détaillant ce projet est disponible sur le serveur arXiv.

“Lisez l’article original sur : New Atlas

Pour en savoir plus : L’IA bat les humains dans la plupart des tests

Cookie	Durée	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Microsoft AI anime une photo en vidéo parlante