RepVideo: 動画生成のためのクロスレイヤー表現の再考
RepVideo: Rethinking Cross-Layer Representation for Video Generation
January 15, 2025
著者: Chenyang Si, Weichen Fan, Zhengyao Lv, Ziqi Huang, Yu Qiao, Ziwei Liu
cs.AI
要旨
動画生成は、拡散モデルの導入により著しい進歩を遂げ、生成される動画の品質が大幅に向上しました。しかしながら、最近の研究は主にモデルトレーニングのスケーリングに焦点を当てており、ビデオ生成プロセスへの表現の直接的な影響についての洞察は限られています。本論文では、まず中間層の特徴の特性を調査し、異なる層間での注意マップの著しい変動を見出しました。これらの変動は不安定な意味表現をもたらし、特徴間の累積的な差異に寄与し、結果として隣接フレーム間の類似性を低下させ、時間的な一貫性に悪影響を与えます。これを解決するために、我々はRepVideoという、テキストから動画への拡散モデル向けの強化された表現フレームワークを提案します。隣接層から特徴を蓄積して豊かな表現を形成することで、この手法はより安定した意味情報を捉えます。これらの強化された表現は、注意メカニズムへの入力として使用され、隣接フレーム間での特徴の一貫性を確保しながら、意味の表現力を向上させます。幅広い実験により、RepVideoが正確な空間外観を生成する能力を著しく向上させるだけでなく、複数のオブジェクト間の複雑な空間関係を捉えることができ、ビデオ生成における時間的一貫性も向上させることが示されました。
English
Video generation has achieved remarkable progress with the introduction of
diffusion models, which have significantly improved the quality of generated
videos. However, recent research has primarily focused on scaling up model
training, while offering limited insights into the direct impact of
representations on the video generation process. In this paper, we initially
investigate the characteristics of features in intermediate layers, finding
substantial variations in attention maps across different layers. These
variations lead to unstable semantic representations and contribute to
cumulative differences between features, which ultimately reduce the similarity
between adjacent frames and negatively affect temporal coherence. To address
this, we propose RepVideo, an enhanced representation framework for
text-to-video diffusion models. By accumulating features from neighboring
layers to form enriched representations, this approach captures more stable
semantic information. These enhanced representations are then used as inputs to
the attention mechanism, thereby improving semantic expressiveness while
ensuring feature consistency across adjacent frames. Extensive experiments
demonstrate that our RepVideo not only significantly enhances the ability to
generate accurate spatial appearances, such as capturing complex spatial
relationships between multiple objects, but also improves temporal consistency
in video generation.Summary
AI-Generated Summary