ChatPaper.aiChatPaper

시간을 주의하라: 시간적으로 제어된 다중 이벤트 비디오 생성

Mind the Time: Temporally-Controlled Multi-Event Video Generation

December 6, 2024
저자: Ziyi Wu, Aliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Yuwei Fang, Varnith Chordia, Igor Gilitschenski, Sergey Tulyakov
cs.AI

초록

현실 세계 비디오는 사건의 연속으로 구성됩니다. 정확한 시간 제어를 가진 이러한 연속을 생성하는 것은 기존의 단일 단락 텍스트를 입력으로 하는 비디오 생성기로는 불가능합니다. 단일 프롬프트를 사용하여 설명된 여러 사건을 생성하도록 요청받을 때, 이러한 방법들은 종종 일부 사건을 무시하거나 올바른 순서로 배열하지 못합니다. 이 한계를 해결하기 위해, 우리는 시간 제어를 갖는 다중 사건 비디오 생성기인 MinT를 제안합니다. 우리의 주요 통찰은 생성된 비디오에서 각 사건을 특정 기간에 바인딩함으로써 모델이 한 번에 한 사건에 집중할 수 있도록 하는 것입니다. 사건 캡션과 비디오 토큰 간의 시간 인식 상호작용을 가능하게 하기 위해 ReRoPE라는 이름의 시간 기반 위치 부여 인코딩 방법을 설계했습니다. 이 인코딩은 교차 주의 작업을 안내하는 데 도움이 됩니다. 시간적으로 기반을 둔 데이터에 사전 훈련된 비디오 확산 트랜스포머를 세밀하게 조정함으로써, 우리의 방법은 부드럽게 연결된 사건을 가진 일관된 비디오를 생성합니다. 문헌에서 처음으로, 우리 모델은 생성된 비디오의 사건 타이밍을 제어할 수 있습니다. 광범위한 실험 결과 MinT가 기존의 오픈 소스 모델들을 크게 앞선다는 것을 입증합니다.
English
Real-world videos consist of sequences of events. Generating such sequences with precise temporal control is infeasible with existing video generators that rely on a single paragraph of text as input. When tasked with generating multiple events described using a single prompt, such methods often ignore some of the events or fail to arrange them in the correct order. To address this limitation, we present MinT, a multi-event video generator with temporal control. Our key insight is to bind each event to a specific period in the generated video, which allows the model to focus on one event at a time. To enable time-aware interactions between event captions and video tokens, we design a time-based positional encoding method, dubbed ReRoPE. This encoding helps to guide the cross-attention operation. By fine-tuning a pre-trained video diffusion transformer on temporally grounded data, our approach produces coherent videos with smoothly connected events. For the first time in the literature, our model offers control over the timing of events in generated videos. Extensive experiments demonstrate that MinT outperforms existing open-source models by a large margin.

Summary

AI-Generated Summary

PDF112December 9, 2024