MEMO: Gedächtnisgesteuerte Diffusion zur Erzeugung von ausdrucksstarken Sprechvideo.
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
December 5, 2024
Autoren: Longtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei Video-Diffusionsmodellen neues Potenzial für die realistische Generierung von sprachgesteuerten Videos eröffnet. Dennoch bleiben nahtlose Audio-Lippen-Synchronisation, die Aufrechterhaltung einer langfristigen Identitätskonsistenz und die Erzeugung natürlicher, audioausgerichteter Ausdrücke in generierten sprachgesteuerten Videos bedeutende Herausforderungen. Um diesen Herausforderungen zu begegnen, schlagen wir Memory-gesteuerte EMOtionsbewusste Diffusion (MEMO) vor, einen audiogetriebenen Porträtanimationsansatz zur Generierung von identitätskonsistenten und ausdrucksstarken sprachgesteuerten Videos. Unser Ansatz basiert auf zwei Schlüsselmodulen: (1) ein memory-gesteuertes zeitliches Modul, das die langfristige Identitätskonsistenz und Bewegungsglättung verbessert, indem es Gedächtniszustände entwickelt, um Informationen aus einem längeren vergangenen Kontext zu speichern, um das zeitliche Modellieren über lineare Aufmerksamkeit zu lenken; und (2) ein emotionsbewusstes Audio-Modul, das herkömmliche Kreuz-Aufmerksamkeit durch multimodale Aufmerksamkeit ersetzt, um die Audio-Video-Interaktion zu verbessern, während Emotionen aus dem Audio erkannt werden, um Gesichtsausdrücke über emotionale adaptive Schichtnormen zu verfeinern. Umfangreiche quantitative und qualitative Ergebnisse zeigen, dass MEMO realistischere sprachgesteuerte Videos über verschiedene Bild- und Audiotypen generiert, indem es führende Methoden in Bezug auf Gesamtqualität, Audio-Lippen-Synchronisation, Identitätskonsistenz und Ausdrucks-Emotions-Ausrichtung übertrifft.
English
Recent advances in video diffusion models have unlocked new potential for
realistic audio-driven talking video generation. However, achieving seamless
audio-lip synchronization, maintaining long-term identity consistency, and
producing natural, audio-aligned expressions in generated talking videos remain
significant challenges. To address these challenges, we propose Memory-guided
EMOtion-aware diffusion (MEMO), an end-to-end audio-driven portrait animation
approach to generate identity-consistent and expressive talking videos. Our
approach is built around two key modules: (1) a memory-guided temporal module,
which enhances long-term identity consistency and motion smoothness by
developing memory states to store information from a longer past context to
guide temporal modeling via linear attention; and (2) an emotion-aware audio
module, which replaces traditional cross attention with multi-modal attention
to enhance audio-video interaction, while detecting emotions from audio to
refine facial expressions via emotion adaptive layer norm. Extensive
quantitative and qualitative results demonstrate that MEMO generates more
realistic talking videos across diverse image and audio types, outperforming
state-of-the-art methods in overall quality, audio-lip synchronization,
identity consistency, and expression-emotion alignment.Summary
AI-Generated Summary