
세밀한 비디오 모션 제어를 위한 궤적 주의력

Trajectory Attention for Fine-grained Video Motion Control

November 28, 2024
저자: Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan


최근 비디오 생성 분야의 발전은 비디오 확산 모델에 크게 영향을 받았으며, 카메라 움직임 제어가 시각 맞춤형 시각 콘텐츠 생성에서 중요한 과제로 부상했습니다. 본 논문은 궤적 주의(trajectory attention)를 소개하는데, 이는 세밀한 카메라 움직임 제어를 위해 사용 가능한 픽셀 궤적을 따라 주의를 수행하는 새로운 방법론입니다. 기존 방법들과는 달리 종종 부정확한 출력물을 내거나 시간적 상관관계를 무시하는 것과는 대조적으로, 우리의 방법론은 비디오 생성 과정에 궤적 정보를 자연스럽게 주입하는 강한 귀납 편향을 가지고 있습니다. 중요한 점은, 우리의 방법론은 전통적인 시간 주의와 함께 보조 분기로서 궤적 주의를 모델링합니다. 이 설계는 원래의 시간 주의와 궤적 주의가 시너지를 발휘하도록 하여 정확한 움직임 제어와 새로운 콘텐츠 생성 능력을 보장하며, 궤적이 부분적으로만 사용 가능한 경우에 중요합니다. 이미지와 비디오에 대한 카메라 움직임 제어 실험은 고정밀도와 장거리 일관성이 유지되면서 높은 품질의 생성을 보여줍니다. 더불어, 우리의 방법론이 첫 프레임 안내 비디오 편집과 같은 다른 비디오 움직임 제어 작업으로 확장될 수 있음을 보여주며, 이러한 작업에서 큰 공간 및 시간 범위에서 콘텐츠 일관성을 유지하는 데 뛰어남을 입증합니다.
Recent advancements in video generation have been greatly driven by video diffusion models, with camera motion control emerging as a crucial challenge in creating view-customized visual content. This paper introduces trajectory attention, a novel approach that performs attention along available pixel trajectories for fine-grained camera motion control. Unlike existing methods that often yield imprecise outputs or neglect temporal correlations, our approach possesses a stronger inductive bias that seamlessly injects trajectory information into the video generation process. Importantly, our approach models trajectory attention as an auxiliary branch alongside traditional temporal attention. This design enables the original temporal attention and the trajectory attention to work in synergy, ensuring both precise motion control and new content generation capability, which is critical when the trajectory is only partially available. Experiments on camera motion control for images and videos demonstrate significant improvements in precision and long-range consistency while maintaining high-quality generation. Furthermore, we show that our approach can be extended to other video motion control tasks, such as first-frame-guided video editing, where it excels in maintaining content consistency over large spatial and temporal ranges.


AI-Generated Summary

PDF122December 2, 2024