ChatPaper.aiChatPaper

3DTrajMaster: 비디오에서의 다중 개체 움직임을 위한 3D 궤적 마스터링

3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

December 10, 2024
저자: Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI

초록

본 논문은 비디오 생성에서 다중 개체 3D 동작을 조작하는 데 목적을 두고 있습니다. 제어 가능한 비디오 생성에 대한 이전 방법은 주로 2D 제어 신호를 활용하여 객체 동작을 조작하고 현저한 합성 결과를 이루었습니다. 그러나 2D 제어 신호는 객체 동작의 3D 성격을 표현하는 데 본질적으로 제한이 있습니다. 이 문제를 극복하기 위해 우리는 사용자가 원하는 엔티티의 6DoF 포즈(위치 및 회전) 시퀀스를 조절하는 강력한 컨트롤러인 3DTrajMaster를 소개합니다. 우리 접근 방식의 핵심은 여러 입력 엔티티를 해당 3D 궤적과 함께 융합시키는 게이트형 자기 주의 메커니즘을 통해 3D 동작에 기반한 오브젝트 인젝터를 플러그 앤 플레이하는 것입니다. 또한 일반화 능력에 중요한 비디오 확산 사전을 보존하기 위해 인젝터 아키텍처를 활용합니다. 비디오 품질 저하를 완화하기 위해 훈련 중에 도메인 어댑터를 도입하고 추론 중에 어닐링 샘플링 전략을 채택합니다. 적절한 훈련 데이터 부족 문제를 해결하기 위해 360-Motion 데이터셋을 구축했는데, 이는 먼저 수집된 3D 인간 및 동물 자산을 GPT가 생성한 궤적과 연관시키고 다양한 3D UE 플랫폼의 12개의 고르게 배치된 카메라로 그들의 동작을 캡처합니다. 광범위한 실험 결과는 3DTrajMaster가 다중 개체 3D 동작을 제어하는 데 있어 정확성과 일반화 측면에서 새로운 최고 수준을 세웠음을 보여줍니다. 프로젝트 페이지: http://fuxiao0719.github.io/projects/3dtrajmaster
English
This paper aims to manipulate multi-entity 3D motions in video generation. Previous methods on controllable video generation primarily leverage 2D control signals to manipulate object motions and have achieved remarkable synthesis results. However, 2D control signals are inherently limited in expressing the 3D nature of object motions. To overcome this problem, we introduce 3DTrajMaster, a robust controller that regulates multi-entity dynamics in 3D space, given user-desired 6DoF pose (location and rotation) sequences of entities. At the core of our approach is a plug-and-play 3D-motion grounded object injector that fuses multiple input entities with their respective 3D trajectories through a gated self-attention mechanism. In addition, we exploit an injector architecture to preserve the video diffusion prior, which is crucial for generalization ability. To mitigate video quality degradation, we introduce a domain adaptor during training and employ an annealed sampling strategy during inference. To address the lack of suitable training data, we construct a 360-Motion Dataset, which first correlates collected 3D human and animal assets with GPT-generated trajectory and then captures their motion with 12 evenly-surround cameras on diverse 3D UE platforms. Extensive experiments show that 3DTrajMaster sets a new state-of-the-art in both accuracy and generalization for controlling multi-entity 3D motions. Project page: http://fuxiao0719.github.io/projects/3dtrajmaster

Summary

AI-Generated Summary

PDF182December 11, 2024