RepVideo: Переосмысление представления на разных уровнях для генерации видео
RepVideo: Rethinking Cross-Layer Representation for Video Generation
January 15, 2025
Авторы: Chenyang Si, Weichen Fan, Zhengyao Lv, Ziqi Huang, Yu Qiao, Ziwei Liu
cs.AI
Аннотация
Генерация видео достигла значительного прогресса с появлением моделей диффузии, которые значительно улучшили качество создаваемых видеороликов. Однако недавние исследования в основном сосредоточены на масштабировании обучения моделей, предлагая ограниченное понимание прямого влияния представлений на процесс генерации видео. В данной статье мы начинаем исследовать характеристики признаков в промежуточных слоях, обнаружив значительные различия в картах внимания между различными слоями. Эти различия приводят к нестабильным семантическим представлениям и способствуют накоплению различий между признаками, что в конечном итоге снижает сходство между смежными кадрами и негативно влияет на временную согласованность. Для решения этой проблемы мы предлагаем RepVideo, улучшенную структуру представлений для моделей диффузии текста в видео. Накопляя признаки из соседних слоев для формирования обогащенных представлений, данный подход захватывает более стабильную семантическую информацию. Эти улучшенные представления затем используются в качестве входных данных для механизма внимания, тем самым улучшая семантическую выразительность и обеспечивая согласованность признаков между смежными кадрами. Обширные эксперименты демонстрируют, что наша модель RepVideo не только значительно улучшает способность генерировать точные пространственные образы, такие как захват сложных пространственных отношений между несколькими объектами, но также улучшает временную согласованность в генерации видео.
English
Video generation has achieved remarkable progress with the introduction of
diffusion models, which have significantly improved the quality of generated
videos. However, recent research has primarily focused on scaling up model
training, while offering limited insights into the direct impact of
representations on the video generation process. In this paper, we initially
investigate the characteristics of features in intermediate layers, finding
substantial variations in attention maps across different layers. These
variations lead to unstable semantic representations and contribute to
cumulative differences between features, which ultimately reduce the similarity
between adjacent frames and negatively affect temporal coherence. To address
this, we propose RepVideo, an enhanced representation framework for
text-to-video diffusion models. By accumulating features from neighboring
layers to form enriched representations, this approach captures more stable
semantic information. These enhanced representations are then used as inputs to
the attention mechanism, thereby improving semantic expressiveness while
ensuring feature consistency across adjacent frames. Extensive experiments
demonstrate that our RepVideo not only significantly enhances the ability to
generate accurate spatial appearances, such as capturing complex spatial
relationships between multiple objects, but also improves temporal consistency
in video generation.Summary
AI-Generated Summary