Reangle-A-Video: 4D-Videogenerierung als Video-zu-Video-Übersetzung
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation
March 12, 2025
Autoren: Hyeonho Jeong, Suhyeon Lee, Jong Chul Ye
cs.AI
Zusammenfassung
Wir stellen Reangle-A-Video vor, ein einheitliches Framework zur Erzeugung synchronisierter Multi-View-Videos aus einem einzelnen Eingabevideo. Im Gegensatz zu gängigen Ansätzen, die Multi-View-Video-Diffusionsmodelle auf groß angelegten 4D-Datensätzen trainieren, formuliert unsere Methode die Aufgabe der Multi-View-Video-Generierung als Video-zu-Videos-Übersetzung und nutzt dabei öffentlich verfügbare Bild- und Video-Diffusions-Priors. Im Wesentlichen arbeitet Reangle-A-Video in zwei Stufen. (1) Multi-View-Bewegungslernen: Ein Bild-zu-Video-Diffusionstransformer wird synchron in einer selbstüberwachten Weise feinabgestimmt, um sichtinvariante Bewegungen aus einer Reihe von verzerrten Videos zu extrahieren. (2) Multi-View-konsistente Bild-zu-Bild-Übersetzung: Der erste Frame des Eingabevideos wird verzerrt und in verschiedene Kameraperspektiven unter einer Inferenzzeit-Kreuzsicht-Konsistenzführung mittels DUSt3R eingefärbt, wodurch multi-view-konsistente Startbilder erzeugt werden. Umfangreiche Experimente zur statischen Sichttransportierung und dynamischen Kamerasteuerung zeigen, dass Reangle-A-Video bestehende Methoden übertrifft und eine neue Lösung für die Multi-View-Video-Generierung etabliert. Wir werden unseren Code und unsere Daten öffentlich zugänglich machen. Projektseite: https://hyeonho99.github.io/reangle-a-video/
English
We introduce Reangle-A-Video, a unified framework for generating synchronized
multi-view videos from a single input video. Unlike mainstream approaches that
train multi-view video diffusion models on large-scale 4D datasets, our method
reframes the multi-view video generation task as video-to-videos translation,
leveraging publicly available image and video diffusion priors. In essence,
Reangle-A-Video operates in two stages. (1) Multi-View Motion Learning: An
image-to-video diffusion transformer is synchronously fine-tuned in a
self-supervised manner to distill view-invariant motion from a set of warped
videos. (2) Multi-View Consistent Image-to-Images Translation: The first frame
of the input video is warped and inpainted into various camera perspectives
under an inference-time cross-view consistency guidance using DUSt3R,
generating multi-view consistent starting images. Extensive experiments on
static view transport and dynamic camera control show that Reangle-A-Video
surpasses existing methods, establishing a new solution for multi-view video
generation. We will publicly release our code and data. Project page:
https://hyeonho99.github.io/reangle-a-video/Summary
AI-Generated Summary