DAWN : Avatar de Cadre Dynamique avec Cadre de Diffusion Non-Autorégressif pour la Génération de Vidéos de Tête Parlante
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation
October 17, 2024
Auteurs: Hanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan
cs.AI
Résumé
La génération de têtes parlantes vise à produire des vidéos de têtes parlantes vives et réalistes à partir d'un seul portrait et d'un extrait audio de discours. Bien que des progrès significatifs aient été réalisés dans la génération de têtes parlantes basée sur la diffusion, presque toutes les méthodes reposent sur des stratégies autorégressives, qui souffrent d'une utilisation limitée du contexte au-delà de l'étape actuelle de génération, de l'accumulation d'erreurs et d'une vitesse de génération plus lente. Pour relever ces défis, nous présentons DAWN (Avatar de cadre dynamique avec diffusion non autorégressive), un cadre qui permet la génération simultanée de séquences vidéo de longueurs dynamiques. Plus précisément, il se compose de deux composants principaux : (1) la génération holistique des dynamiques faciales basée sur l'audio dans l'espace de mouvement latent, et (2) la génération de la pose de tête et des clignements basée sur l'audio. Des expériences approfondies démontrent que notre méthode génère des vidéos authentiques et vives avec des mouvements précis des lèvres, et des mouvements naturels de pose/clignement. De plus, avec une vitesse de génération élevée, DAWN possède de solides capacités d'extrapolation, garantissant la production stable de vidéos longues de haute qualité. Ces résultats soulignent la promesse considérable et l'impact potentiel de DAWN dans le domaine de la génération de vidéos de têtes parlantes. De plus, nous espérons que DAWN suscite une exploration plus poussée des approches non autorégressives dans les modèles de diffusion. Notre code sera disponible publiquement sur https://github.com/Hanbo-Cheng/DAWN-pytorch.
English
Talking head generation intends to produce vivid and realistic talking head
videos from a single portrait and speech audio clip. Although significant
progress has been made in diffusion-based talking head generation, almost all
methods rely on autoregressive strategies, which suffer from limited context
utilization beyond the current generation step, error accumulation, and slower
generation speed. To address these challenges, we present DAWN (Dynamic frame
Avatar With Non-autoregressive diffusion), a framework that enables all-at-once
generation of dynamic-length video sequences. Specifically, it consists of two
main components: (1) audio-driven holistic facial dynamics generation in the
latent motion space, and (2) audio-driven head pose and blink generation.
Extensive experiments demonstrate that our method generates authentic and vivid
videos with precise lip motions, and natural pose/blink movements.
Additionally, with a high generation speed, DAWN possesses strong extrapolation
capabilities, ensuring the stable production of high-quality long videos. These
results highlight the considerable promise and potential impact of DAWN in the
field of talking head video generation. Furthermore, we hope that DAWN sparks
further exploration of non-autoregressive approaches in diffusion models. Our
code will be publicly at https://github.com/Hanbo-Cheng/DAWN-pytorch.Summary
AI-Generated Summary