X-Dyna: 표현력 있는 동적 인간 이미지 애니메이션
X-Dyna: Expressive Dynamic Human Image Animation
January 17, 2025
저자: Di Chang, Hongyi Xu, You Xie, Yipeng Gao, Zhengfei Kuang, Shengqu Cai, Chenxu Zhang, Guoxian Song, Chao Wang, Yichun Shi, Zeyuan Chen, Shijie Zhou, Linjie Luo, Gordon Wetzstein, Mohammad Soleymani
cs.AI
초록
우리는 X-Dyna를 소개합니다. 이는 얼굴 표정과 신체 움직임을 사용하여 단일 인간 이미지를 애니메이션화하는 새로운 zero-shot, 확산 기반 파이프라인으로, 대상 및 주변 환경에 대한 현실적이고 맥락에 맞는 역학을 생성합니다. X-Dyna는 인간 자세 제어를 중심으로 한 이전 방법들을 기반으로 하며, 동적 세부 사항의 손실을 일으키는 주요 결점을 해결하여 인간 비디오 애니메이션의 생동감 있는 특성을 향상시킵니다. 우리 접근 방식의 핵심은 Dynamics-Adapter로, 확산 백본의 공간 주의에 참조 외관 맥락을 효과적으로 통합하면서 운동 모듈의 용량을 보존하여 순조롭고 복잡한 동적 세부 사항을 합성합니다. 신체 자세 제어를 넘어서, 우리는 로컬 제어 모듈을 모델에 연결하여 독립된 정체성의 얼굴 표정을 포착하며, 애니메이션 장면에서 현실감을 향상시키기 위한 정확한 표현 이전을 용이하게 합니다. 이러한 구성 요소들이 결합하여, 다양한 인간 및 장면 비디오에서 물리적 인간 동작과 자연 장면 역학을 학습할 수 있는 통합된 프레임워크를 형성합니다. 포괄적인 질적 및 양적 평가는 X-Dyna가 최첨단 방법을 능가하며, 매우 생동감 있고 표현력이 풍부한 애니메이션을 생성한다는 것을 입증합니다. 코드는 https://github.com/bytedance/X-Dyna에서 사용할 수 있습니다.
English
We introduce X-Dyna, a novel zero-shot, diffusion-based pipeline for
animating a single human image using facial expressions and body movements
derived from a driving video, that generates realistic, context-aware dynamics
for both the subject and the surrounding environment. Building on prior
approaches centered on human pose control, X-Dyna addresses key shortcomings
causing the loss of dynamic details, enhancing the lifelike qualities of human
video animations. At the core of our approach is the Dynamics-Adapter, a
lightweight module that effectively integrates reference appearance context
into the spatial attentions of the diffusion backbone while preserving the
capacity of motion modules in synthesizing fluid and intricate dynamic details.
Beyond body pose control, we connect a local control module with our model to
capture identity-disentangled facial expressions, facilitating accurate
expression transfer for enhanced realism in animated scenes. Together, these
components form a unified framework capable of learning physical human motion
and natural scene dynamics from a diverse blend of human and scene videos.
Comprehensive qualitative and quantitative evaluations demonstrate that X-Dyna
outperforms state-of-the-art methods, creating highly lifelike and expressive
animations. The code is available at https://github.com/bytedance/X-Dyna.Summary
AI-Generated Summary