RepVideo: Überdenken der Cross-Layer-Repräsentation für die Videogenerierung
RepVideo: Rethinking Cross-Layer Representation for Video Generation
January 15, 2025
Autoren: Chenyang Si, Weichen Fan, Zhengyao Lv, Ziqi Huang, Yu Qiao, Ziwei Liu
cs.AI
Zusammenfassung
Die Videogenerierung hat mit der Einführung von Diffusionsmodellen bemerkenswerte Fortschritte erzielt, die die Qualität der generierten Videos erheblich verbessert haben. Allerdings lag der Schwerpunkt der jüngsten Forschung hauptsächlich auf der Skalierung des Modelltrainings, während nur begrenzte Einblicke in den direkten Einfluss von Repräsentationen auf den Videogenerierungsprozess geboten wurden. In diesem Papier untersuchen wir zunächst die Merkmale von Eigenschaften in den Zwischenschichten und stellen dabei erhebliche Variationen in den Aufmerksamkeitskarten zwischen verschiedenen Schichten fest. Diese Variationen führen zu instabilen semantischen Repräsentationen und tragen zu kumulativen Unterschieden zwischen Merkmalen bei, die letztendlich die Ähnlichkeit zwischen benachbarten Frames verringern und die zeitliche Kohärenz negativ beeinflussen. Um dies zu lösen, schlagen wir RepVideo vor, ein verbessertes Repräsentationsframework für Text-zu-Video-Diffusionsmodelle. Durch die Akkumulation von Merkmalen aus benachbarten Schichten zur Bildung angereicherter Repräsentationen erfasst dieser Ansatz stabilere semantische Informationen. Diese verbesserten Repräsentationen werden dann als Eingaben für den Aufmerksamkeitsmechanismus verwendet, wodurch die semantische Ausdruckskraft verbessert wird, während eine Merkmalskonsistenz zwischen benachbarten Frames sichergestellt wird. Umfangreiche Experimente zeigen, dass unser RepVideo nicht nur die Fähigkeit zur Generierung genauer räumlicher Erscheinungsbilder signifikant verbessert, wie die Erfassung komplexer räumlicher Beziehungen zwischen mehreren Objekten, sondern auch die zeitliche Kohärenz bei der Videogenerierung verbessert.
English
Video generation has achieved remarkable progress with the introduction of
diffusion models, which have significantly improved the quality of generated
videos. However, recent research has primarily focused on scaling up model
training, while offering limited insights into the direct impact of
representations on the video generation process. In this paper, we initially
investigate the characteristics of features in intermediate layers, finding
substantial variations in attention maps across different layers. These
variations lead to unstable semantic representations and contribute to
cumulative differences between features, which ultimately reduce the similarity
between adjacent frames and negatively affect temporal coherence. To address
this, we propose RepVideo, an enhanced representation framework for
text-to-video diffusion models. By accumulating features from neighboring
layers to form enriched representations, this approach captures more stable
semantic information. These enhanced representations are then used as inputs to
the attention mechanism, thereby improving semantic expressiveness while
ensuring feature consistency across adjacent frames. Extensive experiments
demonstrate that our RepVideo not only significantly enhances the ability to
generate accurate spatial appearances, such as capturing complex spatial
relationships between multiple objects, but also improves temporal consistency
in video generation.Summary
AI-Generated Summary