메모: 표현력 있는 대화 비디오 생성을 위한 메모리 안내 확산
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
December 5, 2024
저자: Longtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan
cs.AI
초록
최근 비디오 확산 모델의 발전으로 실제 음성 주도 대화 비디오 생성에 대한 새로운 잠재력이 개방되었습니다. 그러나 실제 대화 비디오에서 매끄러운 음성-입술 동기화, 장기 신원 일관성 유지, 그리고 자연스러운 음성에 맞춘 표현 생성은 여전히 중요한 과제입니다. 이러한 과제에 대응하기 위해 우리는 메모리 안내 감정 인식 확산(MEMO)이라는 엔드 투 엔드 음성 주도 초상 애니메이션 접근 방식을 제안하여 신원 일관성과 표현력 있는 대화 비디오를 생성합니다. 우리의 방법론은 두 가지 주요 모듈을 중심으로 구축되어 있습니다: (1) 메모리 안내 시간 모듈은 메모리 상태를 개발하여 더 긴 과거 컨텍스트에서 정보를 저장하고 선형 주의를 통해 시간 모델링을 안내함으로써 장기 신원 일관성과 움직임 부드러움을 향상시킵니다; 그리고 (2) 감정 인식 오디오 모듈은 전통적인 교차 주의를 멀티 모달 주의로 대체하여 오디오-비디오 상호 작용을 강화하고, 오디오에서 감정을 감지하여 감정 적응 레이어 정규화를 통해 얼굴 표현을 정제합니다. 광범위한 양적 및 질적 결과는 MEMO가 다양한 이미지 및 오디오 유형에서 더 현실적인 대화 비디오를 생성하며, 전반적인 품질, 음성-입술 동기화, 신원 일관성 및 표현-감정 정렬에서 최첨단 방법을 능가한다는 것을 입증합니다.
English
Recent advances in video diffusion models have unlocked new potential for
realistic audio-driven talking video generation. However, achieving seamless
audio-lip synchronization, maintaining long-term identity consistency, and
producing natural, audio-aligned expressions in generated talking videos remain
significant challenges. To address these challenges, we propose Memory-guided
EMOtion-aware diffusion (MEMO), an end-to-end audio-driven portrait animation
approach to generate identity-consistent and expressive talking videos. Our
approach is built around two key modules: (1) a memory-guided temporal module,
which enhances long-term identity consistency and motion smoothness by
developing memory states to store information from a longer past context to
guide temporal modeling via linear attention; and (2) an emotion-aware audio
module, which replaces traditional cross attention with multi-modal attention
to enhance audio-video interaction, while detecting emotions from audio to
refine facial expressions via emotion adaptive layer norm. Extensive
quantitative and qualitative results demonstrate that MEMO generates more
realistic talking videos across diverse image and audio types, outperforming
state-of-the-art methods in overall quality, audio-lip synchronization,
identity consistency, and expression-emotion alignment.Summary
AI-Generated Summary