Animate-X: 향상된 동작 표현을 갖춘 범용 캐릭터 이미지 애니메이션

Animate-X: Universal Character Image Animation with Enhanced Motion Representation

October 14, 2024
저자: Shuai Tan, Biao Gong, Xiang Wang, Shiwei Zhang, Dandan Zheng, Ruobing Zheng, Kecheng Zheng, Jingdong Chen, Ming Yang
cs.AI

초록

캐릭터 이미지 애니메이션은 최근 몇 년 동안 참조 이미지와 대상 포즈 시퀀스로부터 고품질 비디오를 생성하는 기술이 상당한 발전을 이루었습니다. 그러나 대부분의 기존 방법은 인간 형상에만 적용되며, 게임 및 엔터테인먼트 산업에서 일반적으로 사용되는 의인화된 캐릭터에는 잘 일반화되지 않는다는 한계가 있습니다. 우리의 심층 분석은 이러한 제한을 운전 비디오의 움직임 패턴을 충분히 모델링하지 못하는 것으로 귀속하여, 이로 인해 대상 캐릭터에 엄격하게 포즈 시퀀스를 부과한다는 것을 제안합니다. 그 결과, 본 논문에서는 의인화된 캐릭터를 포함한 다양한 캐릭터 유형 (통칭 X)을 위한 LDM을 기반으로 하는 범용 애니메이션 프레임워크인 Animate-X를 제안합니다. 움직임 표현을 향상시키기 위해 우리는 운전 비디오로부터 포즈 지표를 도입합니다. 이는 운전 비디오의 CLIP 시각적 특징을 활용하여 전반적인 움직임 패턴 및 움직임 간의 시간적 관계와 같은 움직임의 요지를 추출하는 암묵적 및 명시적 방법을 통해 포착합니다. 후자는 추론 중 발생할 수 있는 가능한 입력을 미리 시뮬레이션하여 LDM의 일반화를 강화합니다. 더불어, 우리는 범용적이고 널리 적용 가능한 애니메이션 이미지에 대한 Animate-X의 성능을 평가하기 위한 새로운 애니메이션 의인화 벤치마크(A^2Bench)를 소개합니다. 광범위한 실험은 Animate-X의 우수성과 효과를 최첨단 기법과 비교하여 입증합니다.
English
Character image animation, which generates high-quality videos from a reference image and target pose sequence, has seen significant progress in recent years. However, most existing methods only apply to human figures, which usually do not generalize well on anthropomorphic characters commonly used in industries like gaming and entertainment. Our in-depth analysis suggests to attribute this limitation to their insufficient modeling of motion, which is unable to comprehend the movement pattern of the driving video, thus imposing a pose sequence rigidly onto the target character. To this end, this paper proposes Animate-X, a universal animation framework based on LDM for various character types (collectively named X), including anthropomorphic characters. To enhance motion representation, we introduce the Pose Indicator, which captures comprehensive motion pattern from the driving video through both implicit and explicit manner. The former leverages CLIP visual features of a driving video to extract its gist of motion, like the overall movement pattern and temporal relations among motions, while the latter strengthens the generalization of LDM by simulating possible inputs in advance that may arise during inference. Moreover, we introduce a new Animated Anthropomorphic Benchmark (A^2Bench) to evaluate the performance of Animate-X on universal and widely applicable animation images. Extensive experiments demonstrate the superiority and effectiveness of Animate-X compared to state-of-the-art methods.

Summary

AI-Generated Summary

PDF523November 16, 2024