VideoRFSplat: Direkte Szenenebene Text-zu-3D-Gauß-Splatting-Generierung mit flexibler Pose und Multi-View-Joint-Modellierung
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling
March 20, 2025
Autoren: Hyojun Go, Byeongjun Park, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim
cs.AI
Zusammenfassung
Wir präsentieren VideoRFSplat, ein direktes Text-zu-3D-Modell, das ein Videogenerierungsmodell nutzt, um realistische 3D Gaussian Splatting (3DGS) für unbegrenzte reale Szenen zu erzeugen. Um diverse Kameraposen und eine unbegrenzte räumliche Ausdehnung realer Szenen zu generieren und gleichzeitig die Generalisierung auf beliebige Textprompts zu gewährleisten, verfeinern bisherige Methoden 2D-Generierungsmodelle, um Kameraposen und Multi-View-Bilder gemeinsam zu modellieren. Diese Methoden leiden jedoch unter Instabilität, wenn 2D-Generierungsmodelle auf die gemeinsame Modellierung erweitert werden, was auf die Modallitätslücke zurückzuführen ist und zusätzliche Modelle zur Stabilisierung von Training und Inferenz erfordert. In dieser Arbeit schlagen wir eine Architektur und eine Sampling-Strategie vor, um Multi-View-Bilder und Kameraposen gemeinsam zu modellieren, während ein Videogenerierungsmodell verfeinert wird. Unser Kernkonzept ist eine Dual-Stream-Architektur, die ein dediziertes Posen-Generierungsmodell neben einem vortrainierten Videogenerierungsmodell über Kommunikationsblöcke anfügt und so Multi-View-Bilder und Kameraposen durch separate Streams erzeugt. Dieser Ansatz reduziert die Interferenz zwischen den Posen- und Bildmodalitäten. Zusätzlich schlagen wir eine asynchrone Sampling-Strategie vor, die Kameraposen schneller entrauscht als Multi-View-Bilder, wodurch schnell entrauschte Posen die Multi-View-Generierung konditionieren können, was gegenseitige Mehrdeutigkeit verringert und die cross-modale Konsistenz verbessert. VideoRFSplat, trainiert auf mehreren groß angelegten realen Datensätzen (RealEstate10K, MVImgNet, DL3DV-10K, ACID), übertrifft bestehende Text-zu-3D-Direktgenerierungsmethoden, die stark auf nachträgliche Verfeinerung durch Score Distillation Sampling angewiesen sind, und erzielt überlegene Ergebnisse ohne eine solche Verfeinerung.
English
We propose VideoRFSplat, a direct text-to-3D model leveraging a video
generation model to generate realistic 3D Gaussian Splatting (3DGS) for
unbounded real-world scenes. To generate diverse camera poses and unbounded
spatial extent of real-world scenes, while ensuring generalization to arbitrary
text prompts, previous methods fine-tune 2D generative models to jointly model
camera poses and multi-view images. However, these methods suffer from
instability when extending 2D generative models to joint modeling due to the
modality gap, which necessitates additional models to stabilize training and
inference. In this work, we propose an architecture and a sampling strategy to
jointly model multi-view images and camera poses when fine-tuning a video
generation model. Our core idea is a dual-stream architecture that attaches a
dedicated pose generation model alongside a pre-trained video generation model
via communication blocks, generating multi-view images and camera poses through
separate streams. This design reduces interference between the pose and image
modalities. Additionally, we propose an asynchronous sampling strategy that
denoises camera poses faster than multi-view images, allowing rapidly denoised
poses to condition multi-view generation, reducing mutual ambiguity and
enhancing cross-modal consistency. Trained on multiple large-scale real-world
datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat outperforms
existing text-to-3D direct generation methods that heavily depend on post-hoc
refinement via score distillation sampling, achieving superior results without
such refinement.Summary
AI-Generated Summary