노이즈 제거 재사용: 효율적인 비디오 잠재 생성을 위한 프레임 간 모션 일관성 활용
Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation
September 19, 2024
저자: Chenyu Wang, Shuo Yan, Yixuan Chen, Yujiang Wang, Mingzhi Dong, Xiaochen Yang, Dongsheng Li, Robert P. Dick, Qin Lv, Fan Yang, Tun Lu, Ning Gu, Li Shang
cs.AI
초록
확산 기반 모델을 사용한 비디오 생성은 프레임별 반복적인 확산 과정으로 인해 높은 계산 비용으로 제약을 받습니다. 본 연구는 잠재적 비디오 생성을 가속화하기 위해 확산 재사용 모션(Dr. Mo) 네트워크를 제안합니다. 우리의 주요 발견은 초기 소음이 이전의 소음 제거 단계에서 연속적인 비디오 프레임 간에 높은 모션 일관성을 보여준다는 것입니다. 이 관찰을 따라, Dr. Mo는 세심하게 설계된 가벼운 프레임 간 모션을 통합하여 초기 소음을 다음 프레임으로 전파함으로써 프레임별 확산 모델의 대규모 계산 중복을 제거합니다. 민감하고 세밀한 소음은 여전히 나중의 소음 제거 단계를 통해 획득되며 시각적 품질을 유지하는 데 중요할 수 있습니다. 따라서 어떤 중간 단계가 모션 기반 전파에서 소음 제거로 전환해야 하는지 결정하는 것은 효율성과 품질 사이의 중요한 문제이자 핵심 트레이드오프일 수 있습니다. Dr. Mo는 비디오 프레임 간에 원하는 중간 단계를 동적으로 결정하기 위해 Denoising Step Selector (DSS)라는 메타 네트워크를 사용합니다. 비디오 생성 및 편집 작업에 대한 포괄적인 평가 결과, Dr. Mo가 시각적 품질을 향상시킨 채 비디오 작업에서 확산 모델을 상당히 가속화할 수 있다는 것을 보여줍니다.
English
Video generation using diffusion-based models is constrained by high
computational costs due to the frame-wise iterative diffusion process. This
work presents a Diffusion Reuse MOtion (Dr. Mo) network to accelerate latent
video generation. Our key discovery is that coarse-grained noises in earlier
denoising steps have demonstrated high motion consistency across consecutive
video frames. Following this observation, Dr. Mo propagates those
coarse-grained noises onto the next frame by incorporating carefully designed,
lightweight inter-frame motions, eliminating massive computational redundancy
in frame-wise diffusion models. The more sensitive and fine-grained noises are
still acquired via later denoising steps, which can be essential to retain
visual qualities. As such, deciding which intermediate steps should switch from
motion-based propagations to denoising can be a crucial problem and a key
tradeoff between efficiency and quality. Dr. Mo employs a meta-network named
Denoising Step Selector (DSS) to dynamically determine desirable intermediate
steps across video frames. Extensive evaluations on video generation and
editing tasks have shown that Dr. Mo can substantially accelerate diffusion
models in video tasks with improved visual qualities.Summary
AI-Generated Summary