MEMO: Diffusione Guidata dalla Memoria per la Generazione di Video Parlanti Espressivi
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
December 5, 2024
Autori: Longtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan
cs.AI
Abstract
I recenti progressi nei modelli di diffusione video hanno sbloccato un nuovo potenziale per la generazione realistica di video parlanti guidati dall'audio. Tuttavia, raggiungere una sincronizzazione audio-labiale senza soluzione di continuità, mantenere una consistenza dell'identità a lungo termine e produrre espressioni naturali e allineate all'audio nei video parlanti generati rimangono sfide significative. Per affrontare tali sfide, proponiamo Memory-guided EMOtion-aware diffusion (MEMO), un approccio di animazione di ritratti guidato dall'audio end-to-end per generare video parlanti consistenti nell'identità ed espressivi. Il nostro approccio si basa su due moduli chiave: (1) un modulo temporale guidato dalla memoria, che migliora la consistenza dell'identità a lungo termine e la fluidità del movimento sviluppando stati di memoria per memorizzare informazioni da un contesto passato più lungo per guidare la modellazione temporale tramite attenzione lineare; e (2) un modulo audio consapevole delle emozioni, che sostituisce l'attenzione incrociata tradizionale con un'attenzione multimodale per migliorare l'interazione audio-video, rilevando emozioni dall'audio per perfezionare le espressioni facciali tramite norma di layer adattiva alle emozioni. Estesi risultati quantitativi e qualitativi dimostrano che MEMO genera video parlanti più realistici attraverso diversi tipi di immagini e audio, superando i metodi all'avanguardia in termini di qualità complessiva, sincronizzazione audio-labiale, consistenza dell'identità e allineamento espressione-emozione.
English
Recent advances in video diffusion models have unlocked new potential for
realistic audio-driven talking video generation. However, achieving seamless
audio-lip synchronization, maintaining long-term identity consistency, and
producing natural, audio-aligned expressions in generated talking videos remain
significant challenges. To address these challenges, we propose Memory-guided
EMOtion-aware diffusion (MEMO), an end-to-end audio-driven portrait animation
approach to generate identity-consistent and expressive talking videos. Our
approach is built around two key modules: (1) a memory-guided temporal module,
which enhances long-term identity consistency and motion smoothness by
developing memory states to store information from a longer past context to
guide temporal modeling via linear attention; and (2) an emotion-aware audio
module, which replaces traditional cross attention with multi-modal attention
to enhance audio-video interaction, while detecting emotions from audio to
refine facial expressions via emotion adaptive layer norm. Extensive
quantitative and qualitative results demonstrate that MEMO generates more
realistic talking videos across diverse image and audio types, outperforming
state-of-the-art methods in overall quality, audio-lip synchronization,
identity consistency, and expression-emotion alignment.Summary
AI-Generated Summary