FlexWorld: Fortschreitende Erweiterung von 3D-Szenen für flexible Ansichtssynthese
FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis
March 17, 2025
Autoren: Luxi Chen, Zihan Zhou, Min Zhao, Yikai Wang, Ge Zhang, Wenhao Huang, Hao Sun, Ji-Rong Wen, Chongxuan Li
cs.AI
Zusammenfassung
Die Erzeugung flexibler 3D-Szenen mit 360°-Rotation und Zoom aus einzelnen Bildern ist aufgrund fehlender 3D-Daten eine Herausforderung. Zu diesem Zweck stellen wir FlexWorld vor, ein neuartiges Framework, das aus zwei Schlüsselkomponenten besteht: (1) ein leistungsstarkes Video-zu-Video (V2V)-Diffusionsmodell zur Generierung hochwertiger neuartiger Ansichtsbilder aus unvollständigen Eingaben, die aus einer groben Szene gerendert wurden, und (2) ein progressiver Erweiterungsprozess zur Konstruktion einer vollständigen 3D-Szene. Insbesondere kann unser V2V-Modell, das auf einem fortschrittlichen vortrainierten Videomodell und präzisen, tiefengeschätzten Trainingspaaren basiert, neuartige Ansichten unter großen Kamerapositionsvariationen erzeugen. Darauf aufbauend generiert FlexWorld schrittweise neuen 3D-Inhalt und integriert ihn durch geometrie-bewusste Szenenfusion in die globale Szene. Umfangreiche Experimente demonstrieren die Effektivität von FlexWorld bei der Generierung hochwertiger neuartiger Ansichtsvideos und flexibler 3D-Szenen aus einzelnen Bildern, wobei es im Vergleich zu bestehenden state-of-the-art Methoden eine überlegene visuelle Qualität unter mehreren gängigen Metriken und Datensätzen erreicht. Qualitativ heben wir hervor, dass FlexWorld hochfidèle Szenen mit flexiblen Ansichten wie 360°-Rotationen und Zoomen erzeugen kann. Projektseite: https://ml-gsai.github.io/FlexWorld.
English
Generating flexible-view 3D scenes, including 360{\deg} rotation and zooming,
from single images is challenging due to a lack of 3D data. To this end, we
introduce FlexWorld, a novel framework consisting of two key components: (1) a
strong video-to-video (V2V) diffusion model to generate high-quality novel view
images from incomplete input rendered from a coarse scene, and (2) a
progressive expansion process to construct a complete 3D scene. In particular,
leveraging an advanced pre-trained video model and accurate depth-estimated
training pairs, our V2V model can generate novel views under large camera pose
variations. Building upon it, FlexWorld progressively generates new 3D content
and integrates it into the global scene through geometry-aware scene fusion.
Extensive experiments demonstrate the effectiveness of FlexWorld in generating
high-quality novel view videos and flexible-view 3D scenes from single images,
achieving superior visual quality under multiple popular metrics and datasets
compared to existing state-of-the-art methods. Qualitatively, we highlight that
FlexWorld can generate high-fidelity scenes with flexible views like 360{\deg}
rotations and zooming. Project page: https://ml-gsai.github.io/FlexWorld.Summary
AI-Generated Summary