DAWN: 비자기 회귀 아닌 확산 프레임 아바타를 위한 동적 프레임 구조를 사용한 Talking Head 비디오 생성
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation
October 17, 2024
저자: Hanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan
cs.AI
초록
토킹 헤드 생성은 단일 초상화와 음성 오디오 클립으로부터 생생하고 현실적인 토킹 헤드 비디오를 생성하는 것을 의도합니다. 확산 기반 토킹 헤드 생성에서 상당한 진전이 이루어졌지만, 거의 모든 방법이 현재 생성 단계를 넘어 제한된 문맥 활용, 오류 누적 및 느린 생성 속도로 인한 자기회귀 전략에 의존합니다. 이러한 도전에 대처하기 위해, 우리는 DAWN (비자기회귀 확산을 사용하는 동적 프레임 아바타)을 제시합니다. 이는 동적 길이 비디오 시퀀스의 일괄 생성을 가능하게 하는 프레임워크로, 주로 두 가지 주요 구성 요소로 구성됩니다: (1) 잠재 모션 공간에서의 오디오 주도적 전체적인 얼굴 역학 생성, 그리고 (2) 오디오 주도적 머리 자세 및 눈 깜빡임 생성. 광범위한 실험 결과, 우리의 방법이 정확한 입술 움직임과 자연스러운 자세/눈 깜빡임 동작을 갖춘 현실적이고 생생한 비디오를 생성한다는 것을 보여줍니다. 더불어 높은 생성 속도로, DAWN은 안정적인 고품질 장비디오의 안정적인 생산을 보장하는 강력한 추정 능력을 갖추고 있습니다. 이러한 결과는 토킹 헤드 비디오 생성 분야에서 DAWN의 상당한 약속과 잠재적 영향을 강조하며, 더 나아가 DAWN이 확산 모델에서 비자기회귀 접근 방식의 추가 탐구를 일으키기를 희망합니다. 우리의 코드는 https://github.com/Hanbo-Cheng/DAWN-pytorch에서 공개될 예정입니다.
English
Talking head generation intends to produce vivid and realistic talking head
videos from a single portrait and speech audio clip. Although significant
progress has been made in diffusion-based talking head generation, almost all
methods rely on autoregressive strategies, which suffer from limited context
utilization beyond the current generation step, error accumulation, and slower
generation speed. To address these challenges, we present DAWN (Dynamic frame
Avatar With Non-autoregressive diffusion), a framework that enables all-at-once
generation of dynamic-length video sequences. Specifically, it consists of two
main components: (1) audio-driven holistic facial dynamics generation in the
latent motion space, and (2) audio-driven head pose and blink generation.
Extensive experiments demonstrate that our method generates authentic and vivid
videos with precise lip motions, and natural pose/blink movements.
Additionally, with a high generation speed, DAWN possesses strong extrapolation
capabilities, ensuring the stable production of high-quality long videos. These
results highlight the considerable promise and potential impact of DAWN in the
field of talking head video generation. Furthermore, we hope that DAWN sparks
further exploration of non-autoregressive approaches in diffusion models. Our
code will be publicly at https://github.com/Hanbo-Cheng/DAWN-pytorch.Summary
AI-Generated Summary