MEMO: Diffusione Guidata dalla Memoria per la Generazione di Video Parlanti Espressivi

MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation

December 5, 2024
Autori: Longtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan
cs.AI

Abstract

I recenti progressi nei modelli di diffusione video hanno sbloccato un nuovo potenziale per la generazione realistica di video parlanti guidati dall'audio. Tuttavia, raggiungere una sincronizzazione audio-labiale senza soluzione di continuità, mantenere una consistenza dell'identità a lungo termine e produrre espressioni naturali e allineate all'audio nei video parlanti generati rimangono sfide significative. Per affrontare tali sfide, proponiamo Memory-guided EMOtion-aware diffusion (MEMO), un approccio di animazione di ritratti guidato dall'audio end-to-end per generare video parlanti consistenti nell'identità ed espressivi. Il nostro approccio si basa su due moduli chiave: (1) un modulo temporale guidato dalla memoria, che migliora la consistenza dell'identità a lungo termine e la fluidità del movimento sviluppando stati di memoria per memorizzare informazioni da un contesto passato più lungo per guidare la modellazione temporale tramite attenzione lineare; e (2) un modulo audio consapevole delle emozioni, che sostituisce l'attenzione incrociata tradizionale con un'attenzione multimodale per migliorare l'interazione audio-video, rilevando emozioni dall'audio per perfezionare le espressioni facciali tramite norma di layer adattiva alle emozioni. Estesi risultati quantitativi e qualitativi dimostrano che MEMO genera video parlanti più realistici attraverso diversi tipi di immagini e audio, superando i metodi all'avanguardia in termini di qualità complessiva, sincronizzazione audio-labiale, consistenza dell'identità e allineamento espressione-emozione.
English
Recent advances in video diffusion models have unlocked new potential for realistic audio-driven talking video generation. However, achieving seamless audio-lip synchronization, maintaining long-term identity consistency, and producing natural, audio-aligned expressions in generated talking videos remain significant challenges. To address these challenges, we propose Memory-guided EMOtion-aware diffusion (MEMO), an end-to-end audio-driven portrait animation approach to generate identity-consistent and expressive talking videos. Our approach is built around two key modules: (1) a memory-guided temporal module, which enhances long-term identity consistency and motion smoothness by developing memory states to store information from a longer past context to guide temporal modeling via linear attention; and (2) an emotion-aware audio module, which replaces traditional cross attention with multi-modal attention to enhance audio-video interaction, while detecting emotions from audio to refine facial expressions via emotion adaptive layer norm. Extensive quantitative and qualitative results demonstrate that MEMO generates more realistic talking videos across diverse image and audio types, outperforming state-of-the-art methods in overall quality, audio-lip synchronization, identity consistency, and expression-emotion alignment.

Summary

AI-Generated Summary

PDF92December 6, 2024