Microsoft AI fait parler une photo
Microsoft Research Asia a dévoilé un modèle d’IA capable de produire des vidéos deepfake incroyablement réalistes en utilisant seulement une image et un clip audio. Cette innovation soulève des préoccupations quant à la crédibilité des contenus visuels et auditifs en ligne.
L’IA a constamment surpassé les humains dans divers benchmarks, ce qui inquiète de nombreuses personnes quant à la possibilité de voir leurs emplois remplacés par des algorithmes. Les dispositifs intelligents ordinaires ont évolué pour devenir des outils essentiels, aidant aux tâches quotidiennes et améliorant la productivité. Certains modèles d’IA peuvent même produire des sons réalistes pour des vidéos silencieuses et générer du contenu vidéo à partir de textes.
Le cadre VASA-1 de Microsoft représente une avancée significative dans ce domaine.
Maîtriser le réalisme avec VASA-1
Entraîné sur environ 6 000 visages parlants réels du jeu de données VoxCeleb2, VASA-1 peut créer des vidéos hautement réalistes. Les sujets animés non seulement se synchronisent précisément avec l’audio fourni, mais affichent également diverses expressions faciales et des mouvements naturels de la tête, le tout à partir d’une seule image statique.
Bien que similaire au modèle Audio2Video Diffusion d’Alibaba, VASA-1 offre un photoréalisme et une précision encore supérieurs. Il peut générer des vidéos synchronisées à une résolution de 512×512 pixels et 40 images par seconde avec une latence minimale.
Bien que les démonstrations du projet aient principalement utilisé des photos de référence générées par l’IA, telles que celles de StyleGAN2 ou DALL-E, un exemple remarquable du monde réel a mis en avant la capacité du cadre à aller au-delà de ses données d’entraînement : une Mona Lisa capable de rapper !
La page du projet présente de nombreux exemples de vidéos parlantes et chantantes créées à partir d’une seule image associée à une piste audio. De plus, l’outil offre des paramètres optionnels pour ajuster les “dynamismes faciaux et les poses de tête”, y compris les émotions, les expressions, la distance de la caméra et la direction du regard. Cette fonctionnalité offre une flexibilité significative.
Les visages parlants générés par l’IA redéfinissent les relations entre les humains et l’IA
Selon l’article présentant cette réalisation, la montée des visages parlants générés par l’IA ouvre la porte à un avenir où la technologie améliore les interactions humaines, tant entre les humains qu’entre les humains et l’IA.
Cette technologie a le potentiel d’améliorer la communication numérique, de renforcer l’accessibilité pour les personnes ayant des difficultés de communication, de révolutionner l’éducation grâce à un tutorat interactif par l’IA, et d’offrir un soutien thérapeutique et social dans le domaine de la santé.
Bien que ces avancées soient louables, les chercheurs reconnaissent également les risques d’abus. À une époque où il est difficile de distinguer la réalité de la fiction dans les nouvelles en ligne, il est inquiétant d’imaginer un outil capable de faire dire n’importe quoi à n’importe qui.
Cela pourrait aller de farces inoffensives, comme recevoir un appel Face Time d’une célébrité adorée, à des actes plus sinistres, tels que piéger quelqu’un avec une confession fabriquée de toutes pièces, escroquer des individus en se faisant passer pour un membre de la famille en détresse, ou manipuler des soutiens politiques pour des agendas controversés—le tout de manière convaincante.
Cependant, le contenu généré par le modèle VASA-1 présente des “artéfacts identifiables”, et les chercheurs prévoient de ne pas le rendre public “tant que nous ne serons pas certains que la technologie sera utilisée de manière responsable et conforme aux réglementations appropriées”.
L’article de recherche détaillant ce projet est disponible sur le serveur arXiv.
Lisez l’article original sur : New Atlas
En savoir plus : http://AI, Now As Business Essential In Microsoft Workplace