동작 유도: 동작 궤적을 이용한 비디오 생성 제어
Motion Prompting: Controlling Video Generation with Motion Trajectories
December 3, 2024
저자: Daniel Geng, Charles Herrmann, Junhwa Hur, Forrester Cole, Serena Zhang, Tobias Pfaff, Tatiana Lopez-Guevara, Carl Doersch, Yusuf Aytar, Michael Rubinstein, Chen Sun, Oliver Wang, Andrew Owens, Deqing Sun
cs.AI
초록
동작 제어는 표현력 있고 매력적인 비디오 콘텐츠를 생성하는 데 중요하지만 대부분의 기존 비디오 생성 모델은 주로 텍스트 프롬프트를 사용하여 제어를 하며, 동적 행동과 시간적 조합의 미묘한 면을 포착하는 데 어려움을 겪습니다. 이에 우리는 시공간적으로 희소하거나 밀도 있는 동작 궤적에 의존하는 비디오 생성 모델을 훈련시킵니다. 이 유연한 표현은 이전의 동작 조건 작업과 대조적으로 임의의 수의 궤적, 객체별 또는 전역 장면 동작, 그리고 시간적으로 희소한 동작을 인코딩할 수 있습니다. 이 유연성으로 인해 우리는 이러한 조건을 동작 프롬프트라고 지칭합니다. 사용자는 희소한 궤적을 직접 지정할 수 있지만, 고수준 사용자 요청을 자세하고 반밀도의 동작 프롬프트로 변환하는 방법도 소개하며, 이 과정을 동작 프롬프트 확장이라고 합니다. 우리의 방법의 다양한 응용을 통해 카메라 및 객체 동작 제어, 이미지와 "상호 작용", 동작 전송, 이미지 편집 등을 포함한 다양한 응용을 보여줍니다. 결과는 현실적인 물리학과 같은 신생 행동을 보여주며, 동작 프롬프트의 비디오 모델 조사 및 미래 생성 세계 모델과 상호 작용의 잠재력을 시사합니다. 마지막으로, 우리는 정량적으로 평가하고, 인간 연구를 실시하며, 강력한 성능을 시연합니다. 비디오 결과는 저희 웹페이지에서 확인할 수 있습니다: https://motion-prompting.github.io/
English
Motion control is crucial for generating expressive and compelling video
content; however, most existing video generation models rely mainly on text
prompts for control, which struggle to capture the nuances of dynamic actions
and temporal compositions. To this end, we train a video generation model
conditioned on spatio-temporally sparse or dense motion trajectories. In
contrast to prior motion conditioning work, this flexible representation can
encode any number of trajectories, object-specific or global scene motion, and
temporally sparse motion; due to its flexibility we refer to this conditioning
as motion prompts. While users may directly specify sparse trajectories, we
also show how to translate high-level user requests into detailed, semi-dense
motion prompts, a process we term motion prompt expansion. We demonstrate the
versatility of our approach through various applications, including camera and
object motion control, "interacting" with an image, motion transfer, and image
editing. Our results showcase emergent behaviors, such as realistic physics,
suggesting the potential of motion prompts for probing video models and
interacting with future generative world models. Finally, we evaluate
quantitatively, conduct a human study, and demonstrate strong performance.
Video results are available on our webpage: https://motion-prompting.github.io/Summary
AI-Generated Summary