ChatPaper.aiChatPaper

MIMO: 공간 분해 모델링을 이용한 제어 가능한 캐릭터 비디오 합성

MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling

September 24, 2024
저자: Yifang Men, Yuan Yao, Miaomiao Cui, Liefeng Bo
cs.AI

초록

캐릭터 비디오 합성은 사실적인 장면 속에서 애니메이션 가능한 캐릭터의 비디오를 생성하는 것을 목표로 합니다. 컴퓨터 비전 및 그래픽 커뮤니티에서의 기본적인 문제로, 3D 작업은 일반적으로 각각의 경우에 대한 훈련을 위해 다중 뷰 캡처를 필요로 하며, 이는 임의의 캐릭터를 짧은 시간 내에 모델링하는 적용 가능성을 심각하게 제한합니다. 최근 2D 방법은 사전 훈련된 확산 모델을 통해 이 제한을 깨는데, 그러나 자세의 일반성과 장면 상호작용에 어려움을 겪습니다. 이에 우리는 MIMO를 제안합니다. 이는 단순한 사용자 입력에 의해 제어 가능한 속성(예: 캐릭터, 동작 및 장면)을 갖춘 캐릭터 비디오를 합성할 뿐만 아니라 임의의 캐릭터에 대한 고급 확장성, 새로운 3D 동작에 대한 일반성, 그리고 통합된 프레임워크에서 상호작용적인 현실 세계 장면에 적용 가능성을 동시에 달성할 수 있는 혁신적인 프레임워크입니다. 핵심 아이디어는 비디오의 내재적인 3D 특성을 고려하여 2D 비디오를 간결한 공간 코드로 인코딩하는 것입니다. 구체적으로, 우리는 단안 깊이 추정기를 사용하여 2D 프레임 픽셀을 3D로 변환하고, 비디오 클립을 3D 깊이를 기반으로 계층적 레이어에서 세 가지 공간 구성 요소(즉, 주요 인간, 기저 장면 및 부유하는 가림)로 분해합니다. 이러한 구성 요소들은 정규 신분 코드, 구조화된 동작 코드 및 전체 장면 코드로 인코딩되어 합성 프로세스의 제어 신호로 활용됩니다. 공간 분해 모델링의 설계는 유연한 사용자 제어, 복잡한 동작 표현, 그리고 3D 인식 합성을 통한 장면 상호작용을 가능하게 합니다. 실험 결과는 제안된 방법의 효과적이고 견고한 성능을 입증합니다.
English
Character video synthesis aims to produce realistic videos of animatable characters within lifelike scenes. As a fundamental problem in the computer vision and graphics community, 3D works typically require multi-view captures for per-case training, which severely limits their applicability of modeling arbitrary characters in a short time. Recent 2D methods break this limitation via pre-trained diffusion models, but they struggle for pose generality and scene interaction. To this end, we propose MIMO, a novel framework which can not only synthesize character videos with controllable attributes (i.e., character, motion and scene) provided by simple user inputs, but also simultaneously achieve advanced scalability to arbitrary characters, generality to novel 3D motions, and applicability to interactive real-world scenes in a unified framework. The core idea is to encode the 2D video to compact spatial codes, considering the inherent 3D nature of video occurrence. Concretely, we lift the 2D frame pixels into 3D using monocular depth estimators, and decompose the video clip to three spatial components (i.e., main human, underlying scene, and floating occlusion) in hierarchical layers based on the 3D depth. These components are further encoded to canonical identity code, structured motion code and full scene code, which are utilized as control signals of synthesis process. The design of spatial decomposed modeling enables flexible user control, complex motion expression, as well as 3D-aware synthesis for scene interactions. Experimental results demonstrate effectiveness and robustness of the proposed method.

Summary

AI-Generated Summary

PDF342November 16, 2024