ChatPaper.aiChatPaper

ObjCtrl-2.5D: 카메라 포즈를 활용한 훈련 필요 없는 물체 제어

ObjCtrl-2.5D: Training-free Object Control with Camera Poses

December 10, 2024
저자: Zhouxia Wang, Yushi Lan, Shangchen Zhou, Chen Change Loy
cs.AI

초록

본 연구는 이미지에서 비디오로 (I2V) 생성 시 더 정밀하고 다재다능한 객체 제어를 달성하기 위해 목표로 합니다. 현재 방법들은 일반적으로 대상 객체의 공간 이동을 2D 궤적으로 나타내며, 이는 종종 사용자 의도를 포착하지 못하고 자연스럽지 못한 결과물을 종종 생성합니다. 제어를 향상시키기 위해, 우리는 훈련 없이 객체 제어 접근 방식인 ObjCtrl-2.5D를 제시합니다. 이 방법은 깊이 정보를 포함한 2D 궤적에서 확장된 3D 궤적을 제어 신호로 사용합니다. 객체 이동을 카메라 이동으로 모델링함으로써, ObjCtrl-2.5D는 3D 궤적을 카메라 포즈의 시퀀스로 나타내어 기존 카메라 이동 제어 I2V 생성 모델(CMC-I2V)을 훈련 없이 사용하여 객체 이동 제어를 가능하게 합니다. 전역 이동 제어를 위해 원래 설계된 CMC-I2V 모델을 로컬 객체 이동을 처리할 수 있도록 조정하기 위해, 우리는 대상 객체를 배경으로부터 분리하는 모듈을 도입하여 독립적인 로컬 제어를 가능하게 합니다. 또한, 객체 영역 내에서 낮은 주파수의 변형된 잠재를 공유함으로써 더 정확한 객체 제어를 달성하는 효과적인 방법을 고안합니다. 다양한 실험 결과는 ObjCtrl-2.5D가 훈련 없는 방법보다 객체 제어 정확도를 크게 향상시키고, 2D 궤적을 사용하는 훈련 기반 접근 방식보다 더 다양한 제어 능력을 제공하여 객체 회전과 같은 복잡한 효과를 가능하게 한다는 것을 입증합니다. 코드와 결과는 https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/에서 확인할 수 있습니다.
English
This study aims to achieve more precise and versatile object control in image-to-video (I2V) generation. Current methods typically represent the spatial movement of target objects with 2D trajectories, which often fail to capture user intention and frequently produce unnatural results. To enhance control, we present ObjCtrl-2.5D, a training-free object control approach that uses a 3D trajectory, extended from a 2D trajectory with depth information, as a control signal. By modeling object movement as camera movement, ObjCtrl-2.5D represents the 3D trajectory as a sequence of camera poses, enabling object motion control using an existing camera motion control I2V generation model (CMC-I2V) without training. To adapt the CMC-I2V model originally designed for global motion control to handle local object motion, we introduce a module to isolate the target object from the background, enabling independent local control. In addition, we devise an effective way to achieve more accurate object control by sharing low-frequency warped latent within the object's region across frames. Extensive experiments demonstrate that ObjCtrl-2.5D significantly improves object control accuracy compared to training-free methods and offers more diverse control capabilities than training-based approaches using 2D trajectories, enabling complex effects like object rotation. Code and results are available at https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.

Summary

AI-Generated Summary

PDF82December 11, 2024