RepVideo: Riconsiderazione della Rappresentazione a Strati Incrociati per la Generazione di Video
RepVideo: Rethinking Cross-Layer Representation for Video Generation
January 15, 2025
Autori: Chenyang Si, Weichen Fan, Zhengyao Lv, Ziqi Huang, Yu Qiao, Ziwei Liu
cs.AI
Abstract
La generazione di video ha ottenuto progressi notevoli con l'introduzione dei modelli di diffusione, che hanno migliorato significativamente la qualità dei video generati. Tuttavia, le ricerche recenti si sono concentrate principalmente sull'incremento della formazione dei modelli, offrendo limitate informazioni sull'impatto diretto delle rappresentazioni sul processo di generazione dei video. In questo articolo, esaminiamo inizialmente le caratteristiche delle features nei livelli intermedi, riscontrando notevoli variazioni nelle mappe di attenzione tra i diversi livelli. Queste variazioni portano a rappresentazioni semantiche instabili e contribuiscono a differenze cumulative tra le features, che alla fine riducono la similarità tra i frame adiacenti e influiscono negativamente sulla coerenza temporale. Per affrontare questo problema, proponiamo RepVideo, un framework di rappresentazione potenziato per modelli di diffusione testo-video. Accumulando le features dai livelli adiacenti per formare rappresentazioni arricchite, questo approccio cattura informazioni semantiche più stabili. Queste rappresentazioni potenziate vengono poi utilizzate come input per il meccanismo di attenzione, migliorando così l'espressività semantica garantendo al contempo la coerenza delle features tra i frame adiacenti. Estesi esperimenti dimostrano che il nostro RepVideo non solo migliora significativamente la capacità di generare aspetti spaziali accurati, come catturare relazioni spaziali complesse tra oggetti multipli, ma migliora anche la coerenza temporale nella generazione di video.
English
Video generation has achieved remarkable progress with the introduction of
diffusion models, which have significantly improved the quality of generated
videos. However, recent research has primarily focused on scaling up model
training, while offering limited insights into the direct impact of
representations on the video generation process. In this paper, we initially
investigate the characteristics of features in intermediate layers, finding
substantial variations in attention maps across different layers. These
variations lead to unstable semantic representations and contribute to
cumulative differences between features, which ultimately reduce the similarity
between adjacent frames and negatively affect temporal coherence. To address
this, we propose RepVideo, an enhanced representation framework for
text-to-video diffusion models. By accumulating features from neighboring
layers to form enriched representations, this approach captures more stable
semantic information. These enhanced representations are then used as inputs to
the attention mechanism, thereby improving semantic expressiveness while
ensuring feature consistency across adjacent frames. Extensive experiments
demonstrate that our RepVideo not only significantly enhances the ability to
generate accurate spatial appearances, such as capturing complex spatial
relationships between multiple objects, but also improves temporal consistency
in video generation.Summary
AI-Generated Summary