DAWN : Avatar de Cadre Dynamique avec Cadre de Diffusion Non-Autorégressif pour la Génération de Vidéos de Tête Parlante

Résumé

La génération de têtes parlantes vise à produire des vidéos de têtes parlantes vives et réalistes à partir d'un seul portrait et d'un extrait audio de discours. Bien que des progrès significatifs aient été réalisés dans la génération de têtes parlantes basée sur la diffusion, presque toutes les méthodes reposent sur des stratégies autorégressives, qui souffrent d'une utilisation limitée du contexte au-delà de l'étape actuelle de génération, de l'accumulation d'erreurs et d'une vitesse de génération plus lente. Pour relever ces défis, nous présentons DAWN (Avatar de cadre dynamique avec diffusion non autorégressive), un cadre qui permet la génération simultanée de séquences vidéo de longueurs dynamiques. Plus précisément, il se compose de deux composants principaux : (1) la génération holistique des dynamiques faciales basée sur l'audio dans l'espace de mouvement latent, et (2) la génération de la pose de tête et des clignements basée sur l'audio. Des expériences approfondies démontrent que notre méthode génère des vidéos authentiques et vives avec des mouvements précis des lèvres, et des mouvements naturels de pose/clignement. De plus, avec une vitesse de génération élevée, DAWN possède de solides capacités d'extrapolation, garantissant la production stable de vidéos longues de haute qualité. Ces résultats soulignent la promesse considérable et l'impact potentiel de DAWN dans le domaine de la génération de vidéos de têtes parlantes. De plus, nous espérons que DAWN suscite une exploration plus poussée des approches non autorégressives dans les modèles de diffusion. Notre code sera disponible publiquement sur https://github.com/Hanbo-Cheng/DAWN-pytorch.

English

Talking head generation intends to produce vivid and realistic talking head videos from a single portrait and speech audio clip. Although significant progress has been made in diffusion-based talking head generation, almost all methods rely on autoregressive strategies, which suffer from limited context utilization beyond the current generation step, error accumulation, and slower generation speed. To address these challenges, we present DAWN (Dynamic frame Avatar With Non-autoregressive diffusion), a framework that enables all-at-once generation of dynamic-length video sequences. Specifically, it consists of two main components: (1) audio-driven holistic facial dynamics generation in the latent motion space, and (2) audio-driven head pose and blink generation. Extensive experiments demonstrate that our method generates authentic and vivid videos with precise lip motions, and natural pose/blink movements. Additionally, with a high generation speed, DAWN possesses strong extrapolation capabilities, ensuring the stable production of high-quality long videos. These results highlight the considerable promise and potential impact of DAWN in the field of talking head video generation. Furthermore, we hope that DAWN sparks further exploration of non-autoregressive approaches in diffusion models. Our code will be publicly at https://github.com/Hanbo-Cheng/DAWN-pytorch.

DAWN : Avatar de Cadre Dynamique avec Cadre de Diffusion Non-Autorégressif pour la Génération de Vidéos de Tête Parlante

DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

Résumé

Support