향상된 복합 액션 비디오 생성을 위한 모션 제어

Motion Control for Enhanced Complex Action Video Generation

November 13, 2024
저자: Qiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
cs.AI

초록

기존의 텍스트 대 비디오 (T2V) 모델은 종종 충분히 강조된 또는 복잡한 동작을 생성하는 데 어려움을 겪습니다. 주요 제한 사항은 복잡한 동작 세부 정보를 정확하게 전달하지 못하는 텍스트 프롬프트의 능력 부재에 있습니다. 이를 해결하기 위해 우리는 MVideo라는 혁신적인 프레임워크를 제안합니다. 이 프레임워크는 정확하고 순조로운 동작을 생성하기 위해 설계되었습니다. MVideo는 추가적인 모션 조건 입력으로 마스크 시퀀스를 통합함으로써 텍스트 프롬프트의 제한 사항을 극복하며 의도된 동작을 더 명확하고 정확하게 나타냅니다. GroundingDINO와 SAM2와 같은 기본 비전 모델을 활용하여, MVideo는 마스크 시퀀스를 자동으로 생성하여 효율성과 견고성을 향상시킵니다. 우리의 결과는 훈련 후 MVideo가 텍스트 프롬프트를 모션 조건과 효과적으로 일치시켜 두 가지 기준을 동시에 충족하는 비디오를 생성한다는 것을 입증합니다. 이 이중 제어 메커니즘은 텍스트 프롬프트 또는 모션 조건을 독립적으로 수정하거나 둘 다 동시에 수정함으로써 보다 동적인 비디오 생성을 가능하게 합니다. 더불어, MVideo는 모션 조건 편집 및 구성을 지원하여 더 복잡한 동작을 갖는 비디오를 생성하는 데 도움이 됩니다. 따라서 MVideo는 T2V 모션 생성을 발전시키며, 현재의 비디오 확산 모델에서 향상된 동작 묘사를 위한 강력한 기준을 제시합니다. 우리의 프로젝트 페이지는 https://mvideo-v1.github.io/에서 확인할 수 있습니다.
English
Existing text-to-video (T2V) models often struggle with generating videos with sufficiently pronounced or complex actions. A key limitation lies in the text prompt's inability to precisely convey intricate motion details. To address this, we propose a novel framework, MVideo, designed to produce long-duration videos with precise, fluid actions. MVideo overcomes the limitations of text prompts by incorporating mask sequences as an additional motion condition input, providing a clearer, more accurate representation of intended actions. Leveraging foundational vision models such as GroundingDINO and SAM2, MVideo automatically generates mask sequences, enhancing both efficiency and robustness. Our results demonstrate that, after training, MVideo effectively aligns text prompts with motion conditions to produce videos that simultaneously meet both criteria. This dual control mechanism allows for more dynamic video generation by enabling alterations to either the text prompt or motion condition independently, or both in tandem. Furthermore, MVideo supports motion condition editing and composition, facilitating the generation of videos with more complex actions. MVideo thus advances T2V motion generation, setting a strong benchmark for improved action depiction in current video diffusion models. Our project page is available at https://mvideo-v1.github.io/.

Summary

AI-Generated Summary

PDF22November 14, 2024