RepVideo: 비디오 생성을 위한 교차 계층 표현 재고하기
RepVideo: Rethinking Cross-Layer Representation for Video Generation
January 15, 2025
저자: Chenyang Si, Weichen Fan, Zhengyao Lv, Ziqi Huang, Yu Qiao, Ziwei Liu
cs.AI
초록
동영상 생성은 확산 모델의 도입으로 현저한 진전을 이루었으며, 이는 생성된 동영상의 품질을 크게 향상시켰다. 그러나 최근 연구는 주로 모델 훈련의 확장에 초점을 맞추었으며, 동영상 생성 과정에 대한 표현의 직접적인 영향에 대한 제한된 통찰을 제공했다. 본 논문에서는 먼저 중간 레이어의 특징의 특성을 조사하고, 서로 다른 레이어 간에 주의 맵에서 상당한 변화를 발견했다. 이러한 변화는 불안정한 의미 표현으로 이어지며, 특징 간의 누적적인 차이에 기여하여 인접한 프레임 간의 유사성을 근본적으로 줄이고 시간적 일관성에 부정적인 영향을 미친다. 이를 해결하기 위해 우리는 RepVideo를 제안한다. RepVideo는 텍스트-동영상 확산 모델을 위한 향상된 표현 프레임워크로, 인접 레이어에서 특징을 축적하여 풍부한 표현을 형성함으로써 더 안정적인 의미 정보를 포착한다. 이러한 향상된 표현은 주의 메커니즘의 입력으로 사용되어 의미 표현력을 향상시키고, 인접한 프레임 간의 특징 일관성을 보장하면서 시맨틱 일관성을 개선한다. 광범위한 실험 결과는 RepVideo가 정확한 공간적 외형을 생성하는 능력을 현저히 향상시키는데 그치지 않고, 다수 객체 간의 복잡한 공간적 관계를 포착하고 동영상 생성에서 시간적 일관성을 향상시킨다는 것을 입증한다.
English
Video generation has achieved remarkable progress with the introduction of
diffusion models, which have significantly improved the quality of generated
videos. However, recent research has primarily focused on scaling up model
training, while offering limited insights into the direct impact of
representations on the video generation process. In this paper, we initially
investigate the characteristics of features in intermediate layers, finding
substantial variations in attention maps across different layers. These
variations lead to unstable semantic representations and contribute to
cumulative differences between features, which ultimately reduce the similarity
between adjacent frames and negatively affect temporal coherence. To address
this, we propose RepVideo, an enhanced representation framework for
text-to-video diffusion models. By accumulating features from neighboring
layers to form enriched representations, this approach captures more stable
semantic information. These enhanced representations are then used as inputs to
the attention mechanism, thereby improving semantic expressiveness while
ensuring feature consistency across adjacent frames. Extensive experiments
demonstrate that our RepVideo not only significantly enhances the ability to
generate accurate spatial appearances, such as capturing complex spatial
relationships between multiple objects, but also improves temporal consistency
in video generation.Summary
AI-Generated Summary