RepVideo: Repensando a Representação em Múltiplas Camadas para Geração de Vídeo
RepVideo: Rethinking Cross-Layer Representation for Video Generation
January 15, 2025
Autores: Chenyang Si, Weichen Fan, Zhengyao Lv, Ziqi Huang, Yu Qiao, Ziwei Liu
cs.AI
Resumo
A geração de vídeos alcançou um progresso notável com a introdução de modelos de difusão, que melhoraram significativamente a qualidade dos vídeos gerados. No entanto, pesquisas recentes têm se concentrado principalmente em aumentar o treinamento do modelo, oferecendo insights limitados sobre o impacto direto das representações no processo de geração de vídeos. Neste artigo, investigamos inicialmente as características das features em camadas intermediárias, encontrando variações substanciais nos mapas de atenção entre diferentes camadas. Essas variações resultam em representações semânticas instáveis e contribuem para diferenças cumulativas entre as features, o que acaba por reduzir a similaridade entre frames adjacentes e afetar negativamente a coerência temporal. Para lidar com isso, propomos o RepVideo, um framework de representação aprimorado para modelos de difusão de texto para vídeo. Ao acumular features de camadas vizinhas para formar representações enriquecidas, essa abordagem captura informações semânticas mais estáveis. Essas representações aprimoradas são então utilizadas como entradas para o mecanismo de atenção, melhorando assim a expressividade semântica e garantindo consistência de features entre frames adjacentes. Experimentos extensivos demonstram que nosso RepVideo não apenas melhora significativamente a capacidade de gerar aparências espaciais precisas, como capturar relações espaciais complexas entre múltiplos objetos, mas também melhora a consistência temporal na geração de vídeos.
English
Video generation has achieved remarkable progress with the introduction of
diffusion models, which have significantly improved the quality of generated
videos. However, recent research has primarily focused on scaling up model
training, while offering limited insights into the direct impact of
representations on the video generation process. In this paper, we initially
investigate the characteristics of features in intermediate layers, finding
substantial variations in attention maps across different layers. These
variations lead to unstable semantic representations and contribute to
cumulative differences between features, which ultimately reduce the similarity
between adjacent frames and negatively affect temporal coherence. To address
this, we propose RepVideo, an enhanced representation framework for
text-to-video diffusion models. By accumulating features from neighboring
layers to form enriched representations, this approach captures more stable
semantic information. These enhanced representations are then used as inputs to
the attention mechanism, thereby improving semantic expressiveness while
ensuring feature consistency across adjacent frames. Extensive experiments
demonstrate that our RepVideo not only significantly enhances the ability to
generate accurate spatial appearances, such as capturing complex spatial
relationships between multiple objects, but also improves temporal consistency
in video generation.Summary
AI-Generated Summary