Decompositionale neuronale Szenenrekonstruktion mit generativem Diffusions-Prior
Decompositional Neural Scene Reconstruction with Generative Diffusion Prior
March 19, 2025
Autoren: Junfeng Ni, Yu Liu, Ruijie Lu, Zirui Zhou, Song-Chun Zhu, Yixin Chen, Siyuan Huang
cs.AI
Zusammenfassung
Die dekompositionelle Rekonstruktion von 3D-Szenen mit vollständigen Formen und detaillierten Texturen aller darin enthaltenen Objekte ist für nachgelagerte Anwendungen äußerst interessant, bleibt jedoch eine Herausforderung, insbesondere bei spärlichen Eingabeansichten. Aktuelle Ansätze integrieren semantische oder geometrische Regularisierung, um dieses Problem zu adressieren, leiden jedoch unter erheblichen Qualitätseinbußen in unterbestimmten Bereichen und scheitern bei der Wiederherstellung verdeckter Regionen. Wir argumentieren, dass der Schlüssel zur Lösung dieses Problems in der Ergänzung fehlender Informationen für diese Bereiche liegt. Zu diesem Zweck schlagen wir DP-Recon vor, das Diffusionsprioren in Form von Score Distillation Sampling (SDS) nutzt, um die neuronale Darstellung jedes einzelnen Objekts unter neuen Ansichten zu optimieren. Dies liefert zusätzliche Informationen für die unterbestimmten Bereiche, doch die direkte Einbindung von Diffusionsprioren birgt potenzielle Konflikte zwischen der Rekonstruktion und der generativen Führung. Daher führen wir zusätzlich einen sichtbarkeitsgesteuerten Ansatz ein, um die SDS-Verlustgewichte pro Pixel dynamisch anzupassen. Diese Komponenten verbessern gemeinsam die Wiederherstellung von Geometrie und Erscheinungsbild, während sie den Eingabebildern treu bleiben. Umfangreiche Experimente mit Replica und ScanNet++ zeigen, dass unsere Methode state-of-the-art-Verfahren deutlich übertrifft. Bemerkenswerterweise erreicht sie eine bessere Objektrekonstruktion unter 10 Ansichten als die Vergleichsmethoden unter 100 Ansichten. Unsere Methode ermöglicht nahtlose textbasierte Bearbeitung von Geometrie und Erscheinungsbild durch SDS-Optimierung und erzeugt dekomponierte Objektnetze mit detaillierten UV-Maps, die fotorealistische Visual Effects (VFX)-Bearbeitung unterstützen. Die Projektseite ist unter https://dp-recon.github.io/ verfügbar.
English
Decompositional reconstruction of 3D scenes, with complete shapes and
detailed texture of all objects within, is intriguing for downstream
applications but remains challenging, particularly with sparse views as input.
Recent approaches incorporate semantic or geometric regularization to address
this issue, but they suffer significant degradation in underconstrained areas
and fail to recover occluded regions. We argue that the key to solving this
problem lies in supplementing missing information for these areas. To this end,
we propose DP-Recon, which employs diffusion priors in the form of Score
Distillation Sampling (SDS) to optimize the neural representation of each
individual object under novel views. This provides additional information for
the underconstrained areas, but directly incorporating diffusion prior raises
potential conflicts between the reconstruction and generative guidance.
Therefore, we further introduce a visibility-guided approach to dynamically
adjust the per-pixel SDS loss weights. Together these components enhance both
geometry and appearance recovery while remaining faithful to input images.
Extensive experiments across Replica and ScanNet++ demonstrate that our method
significantly outperforms SOTA methods. Notably, it achieves better object
reconstruction under 10 views than the baselines under 100 views. Our method
enables seamless text-based editing for geometry and appearance through SDS
optimization and produces decomposed object meshes with detailed UV maps that
support photorealistic Visual effects (VFX) editing. The project page is
available at https://dp-recon.github.io/.Summary
AI-Generated Summary