Generazione di Lunga Diffusione Video con Attenzione Incrociata Segmentata e Cura dei Dati Video Ricchi di Contenuti
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation
December 2, 2024
Autori: Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang
cs.AI
Abstract
Introduciamo Presto, un nuovo modello di diffusione video progettato per generare video di 15 secondi con coerenza a lungo raggio e contenuti ricchi. Estendere i metodi di generazione video per mantenere la diversità degli scenari per lunghe durate presenta significativi sfide. Per affrontare ciò, proponiamo una strategia di Cross-Attention Segmentata (SCA), che suddivide gli stati nascosti in segmenti lungo la dimensione temporale, consentendo a ciascun segmento di attenersi a una sottotitolo corrispondente. SCA non richiede parametri aggiuntivi, consentendo un'incorporazione senza soluzione di continuità nelle attuali architetture basate su DiT. Per facilitare la generazione di video di alta qualità a lungo, costruiamo il dataset LongTake-HD, composto da 261k video ricchi di contenuti con coerenza degli scenari, annotati con un sottotitolo video generale e cinque sottotitoli progressivi. Gli esperimenti mostrano che il nostro Presto raggiunge il 78.5% sul Punteggio Semantico di VBench e il 100% sul Grado Dinamico, superando i metodi di generazione video all'avanguardia esistenti. Ciò dimostra che il nostro Presto proposto migliora significativamente la ricchezza dei contenuti, mantiene la coerenza a lungo raggio e cattura dettagli testuali complessi. Ulteriori dettagli sono disponibili sulla nostra pagina del progetto: https://presto-video.github.io/.
English
We introduce Presto, a novel video diffusion model designed to generate
15-second videos with long-range coherence and rich content. Extending video
generation methods to maintain scenario diversity over long durations presents
significant challenges. To address this, we propose a Segmented Cross-Attention
(SCA) strategy, which splits hidden states into segments along the temporal
dimension, allowing each segment to cross-attend to a corresponding
sub-caption. SCA requires no additional parameters, enabling seamless
incorporation into current DiT-based architectures. To facilitate high-quality
long video generation, we build the LongTake-HD dataset, consisting of 261k
content-rich videos with scenario coherence, annotated with an overall video
caption and five progressive sub-captions. Experiments show that our Presto
achieves 78.5% on the VBench Semantic Score and 100% on the Dynamic Degree,
outperforming existing state-of-the-art video generation methods. This
demonstrates that our proposed Presto significantly enhances content richness,
maintains long-range coherence, and captures intricate textual details. More
details are displayed on our project page: https://presto-video.github.io/.Summary
AI-Generated Summary