Fai attenzione al tempo: Generazione di video multi-evento controllati temporalmente.

Mind the Time: Temporally-Controlled Multi-Event Video Generation

December 6, 2024
Autori: Ziyi Wu, Aliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Yuwei Fang, Varnith Chordia, Igor Gilitschenski, Sergey Tulyakov
cs.AI

Abstract

I video del mondo reale sono composti da sequenze di eventi. Generare tali sequenze con un controllo temporale preciso è impraticabile con i generatori video esistenti che si basano su un singolo paragrafo di testo in ingresso. Quando incaricati di generare più eventi descritti utilizzando un'unica istruzione, tali metodi spesso ignorano alcuni eventi o non riescono a disporli nell'ordine corretto. Per affrontare questa limitazione, presentiamo MinT, un generatore video multi-evento con controllo temporale. La nostra intuizione chiave è quella di legare ciascun evento a un periodo specifico nel video generato, il che consente al modello di concentrarsi su un evento alla volta. Per consentire interazioni consapevoli del tempo tra didascalie degli eventi e token video, progettiamo un metodo di codifica posizionale basato sul tempo, chiamato ReRoPE. Questa codifica aiuta a guidare l'operazione di cross-attenzione. Mediante il raffinamento di un trasformatore di diffusione video preaddestrato su dati temporalmente ancorati, il nostro approccio produce video coerenti con eventi collegati in modo fluido. Per la prima volta nella letteratura, il nostro modello offre controllo sul timing degli eventi nei video generati. Estesi esperimenti dimostrano che MinT supera di gran lunga i modelli open-source esistenti.
English
Real-world videos consist of sequences of events. Generating such sequences with precise temporal control is infeasible with existing video generators that rely on a single paragraph of text as input. When tasked with generating multiple events described using a single prompt, such methods often ignore some of the events or fail to arrange them in the correct order. To address this limitation, we present MinT, a multi-event video generator with temporal control. Our key insight is to bind each event to a specific period in the generated video, which allows the model to focus on one event at a time. To enable time-aware interactions between event captions and video tokens, we design a time-based positional encoding method, dubbed ReRoPE. This encoding helps to guide the cross-attention operation. By fine-tuning a pre-trained video diffusion transformer on temporally grounded data, our approach produces coherent videos with smoothly connected events. For the first time in the literature, our model offers control over the timing of events in generated videos. Extensive experiments demonstrate that MinT outperforms existing open-source models by a large margin.

Summary

AI-Generated Summary

PDF102December 9, 2024