RepVideo: Heroverweging van Cross-Layer Representatie voor Video Generatie
RepVideo: Rethinking Cross-Layer Representation for Video Generation
January 15, 2025
Auteurs: Chenyang Si, Weichen Fan, Zhengyao Lv, Ziqi Huang, Yu Qiao, Ziwei Liu
cs.AI
Samenvatting
Met de introductie van diffusiemodellen heeft videogeneratie opmerkelijke vooruitgang geboekt, wat aanzienlijk heeft bijgedragen aan de kwaliteit van gegenereerde video's. Echter, recent onderzoek heeft zich voornamelijk gericht op het opschalen van modeltraining, met beperkte inzichten in de directe invloed van representaties op het videogeneratieproces. In dit artikel onderzoeken we aanvankelijk de kenmerken van kenmerken in tussenliggende lagen, waarbij aanzienlijke variaties in aandachtskaarten over verschillende lagen worden gevonden. Deze variaties leiden tot instabiele semantische representaties en dragen bij aan cumulatieve verschillen tussen kenmerken, wat uiteindelijk de gelijkenis tussen aangrenzende frames vermindert en de temporele coherentie negatief beïnvloedt. Om dit aan te pakken, stellen we RepVideo voor, een verbeterd representatiekader voor tekst-naar-video diffusiemodellen. Door kenmerken van naburige lagen op te stapelen om verrijkte representaties te vormen, legt deze benadering meer stabiele semantische informatie vast. Deze verbeterde representaties worden vervolgens gebruikt als invoer voor het aandachtsmechanisme, waardoor de semantische expressiviteit wordt verbeterd terwijl de kenmerkconsistentie tussen aangrenzende frames wordt gewaarborgd. Uitgebreide experimenten tonen aan dat onze RepVideo niet alleen aanzienlijk de mogelijkheid verbetert om nauwkeurige ruimtelijke verschijningen te genereren, zoals het vastleggen van complexe ruimtelijke relaties tussen meerdere objecten, maar ook de temporele consistentie bij videogeneratie verbetert.
English
Video generation has achieved remarkable progress with the introduction of
diffusion models, which have significantly improved the quality of generated
videos. However, recent research has primarily focused on scaling up model
training, while offering limited insights into the direct impact of
representations on the video generation process. In this paper, we initially
investigate the characteristics of features in intermediate layers, finding
substantial variations in attention maps across different layers. These
variations lead to unstable semantic representations and contribute to
cumulative differences between features, which ultimately reduce the similarity
between adjacent frames and negatively affect temporal coherence. To address
this, we propose RepVideo, an enhanced representation framework for
text-to-video diffusion models. By accumulating features from neighboring
layers to form enriched representations, this approach captures more stable
semantic information. These enhanced representations are then used as inputs to
the attention mechanism, thereby improving semantic expressiveness while
ensuring feature consistency across adjacent frames. Extensive experiments
demonstrate that our RepVideo not only significantly enhances the ability to
generate accurate spatial appearances, such as capturing complex spatial
relationships between multiple objects, but also improves temporal consistency
in video generation.Summary
AI-Generated Summary