LinGen: Verso la Generazione di Video da Testo ad Alta Risoluzione di Breve Durata con Complessità Computazionale Lineare
LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity
December 13, 2024
Autori: Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai
cs.AI
Abstract
La generazione di video da testo migliora la creazione di contenuti ma è estremamente intensiva dal punto di vista computazionale: il costo computazionale dei Trasformatori a Diffusione (DiTs) scala quadraticamente con il numero di pixel. Ciò rende estremamente costosa la generazione di video di breve durata, limitando la maggior parte dei modelli esistenti alla generazione di video di soli 10-20 secondi di durata. Proponiamo un framework di Generazione di Video da Testo a Complessità Lineare (LinGen) il cui costo scala linearmente con il numero di pixel. Per la prima volta, LinGen consente la generazione di video ad alta risoluzione di breve durata su una singola GPU senza compromettere la qualità. Sostituisce il blocco computazionalmente dominante e a complessità quadratica, l'autorappresentazione, con un blocco a complessità lineare chiamato MATE, che consiste in un ramo MA e un ramo TE. Il ramo MA mira a correlazioni da breve a lungo raggio, combinando un blocco bidirezionale Mamba2 con il nostro metodo di riorganizzazione dei token, Scansione Principale Rotativa, e i nostri token di revisione sviluppati per la generazione di video di lunga durata. Il ramo TE è un nuovo blocco di Attenzione Temporale Swin che si concentra sulle correlazioni temporali tra token adiacenti e token di medio raggio. Il blocco MATE affronta il problema della conservazione dell'adiacenza di Mamba e migliora significativamente la coerenza dei video generati. I risultati sperimentali mostrano che LinGen supera DiT (con un tasso di vittoria del 75,6%) in qualità video con una riduzione fino a 15 volte (11,5 volte) dei FLOPs (latenza). Inoltre, sia le metriche automatiche che le valutazioni umane dimostrano che il nostro LinGen-4B produce una qualità video comparabile ai modelli all'avanguardia (con un tasso di vittoria del 50,5%, 52,1%, 49,1% rispetto a Gen-3, LumaLabs e Kling, rispettivamente). Questo apre la strada alla generazione di film di lunga durata e alla generazione di video interattivi in tempo reale. Forniamo risultati di generazione video di 68 secondi e ulteriori esempi sul sito web del nostro progetto: https://lineargen.github.io/.
English
Text-to-video generation enhances content creation but is highly
computationally intensive: The computational cost of Diffusion Transformers
(DiTs) scales quadratically in the number of pixels. This makes minute-length
video generation extremely expensive, limiting most existing models to
generating videos of only 10-20 seconds length. We propose a Linear-complexity
text-to-video Generation (LinGen) framework whose cost scales linearly in the
number of pixels. For the first time, LinGen enables high-resolution
minute-length video generation on a single GPU without compromising quality. It
replaces the computationally-dominant and quadratic-complexity block,
self-attention, with a linear-complexity block called MATE, which consists of
an MA-branch and a TE-branch. The MA-branch targets short-to-long-range
correlations, combining a bidirectional Mamba2 block with our token
rearrangement method, Rotary Major Scan, and our review tokens developed for
long video generation. The TE-branch is a novel TEmporal Swin Attention block
that focuses on temporal correlations between adjacent tokens and medium-range
tokens. The MATE block addresses the adjacency preservation issue of Mamba and
improves the consistency of generated videos significantly. Experimental
results show that LinGen outperforms DiT (with a 75.6% win rate) in video
quality with up to 15times (11.5times) FLOPs (latency) reduction.
Furthermore, both automatic metrics and human evaluation demonstrate our
LinGen-4B yields comparable video quality to state-of-the-art models (with a
50.5%, 52.1%, 49.1% win rate with respect to Gen-3, LumaLabs, and Kling,
respectively). This paves the way to hour-length movie generation and real-time
interactive video generation. We provide 68s video generation results and more
examples in our project website: https://lineargen.github.io/.Summary
AI-Generated Summary