ChatPaper.aiChatPaper

4Real-Video: 일반화 가능한 사실적인 4D 비디오 확산 학습

4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion

December 5, 2024
저자: Chaoyang Wang, Peiye Zhuang, Tuan Duc Ngo, Willi Menapace, Aliaksandr Siarohin, Michael Vasilkovsky, Ivan Skorokhodov, Sergey Tulyakov, Peter Wonka, Hsin-Ying Lee
cs.AI

초록

4Real-Video는 4D 비디오를 생성하기 위한 혁신적인 프레임워크로, 시간과 시점 축을 갖는 비디오 프레임 그리드로 구성됩니다. 이 그리드에서 각 행은 동일한 타임스텝을 공유하는 프레임을 포함하고, 각 열은 동일한 시점에서의 프레임을 포함합니다. 우리는 새로운 이중 스트림 아키텍처를 제안합니다. 한 스트림은 열에서 시점 업데이트를 수행하고, 다른 스트림은 행에서 시간 업데이트를 수행합니다. 각 확산 변환기층 이후에 동기화층이 두 토큰 스트림 간에 정보를 교환합니다. 우리는 두 가지 동기화층 구현을 제안하며, 각각 하드 또는 소프트 동기화를 사용합니다. 이 피드포워드 아키텍처는 이전 연구에 비해 세 가지 측면에서 개선되었습니다: 더 빠른 추론 속도, 향상된 시각적 품질 (FVD, CLIP 및 VideoScore로 측정), 그리고 향상된 시간적 및 시점 일관성 (VideoScore 및 Dust3R-Confidence로 측정).
English
We propose 4Real-Video, a novel framework for generating 4D videos, organized as a grid of video frames with both time and viewpoint axes. In this grid, each row contains frames sharing the same timestep, while each column contains frames from the same viewpoint. We propose a novel two-stream architecture. One stream performs viewpoint updates on columns, and the other stream performs temporal updates on rows. After each diffusion transformer layer, a synchronization layer exchanges information between the two token streams. We propose two implementations of the synchronization layer, using either hard or soft synchronization. This feedforward architecture improves upon previous work in three ways: higher inference speed, enhanced visual quality (measured by FVD, CLIP, and VideoScore), and improved temporal and viewpoint consistency (measured by VideoScore and Dust3R-Confidence).

Summary

AI-Generated Summary

PDF83December 6, 2024