Integrare lo Splatting Gaussiano nel Denoiser a Diffusione per una Generazione Rapida e Scalabile di Immagini in 3D in un Singolo Stadio
Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation
November 21, 2024
Autori: Yuanhao Cai, He Zhang, Kai Zhang, Yixun Liang, Mengwei Ren, Fujun Luan, Qing Liu, Soo Ye Kim, Jianming Zhang, Zhifei Zhang, Yuqian Zhou, Zhe Lin, Alan Yuille
cs.AI
Abstract
I metodi esistenti di trasformazione di immagini in 3D basati su feed-forward si affidano principalmente a modelli di diffusione multi-visivi 2D che non possono garantire la coerenza in 3D. Questi metodi collassano facilmente quando si cambia la direzione della vista di partenza e gestiscono principalmente immagini di prompt incentrate sugli oggetti. In questo articolo, proponiamo un nuovo modello di diffusione 3D in un unico stadio, DiffusionGS, per la generazione di oggetti e scene da una singola vista. DiffusionGS produce direttamente nuvole di punti gaussiani in 3D ad ogni passaggio temporale per garantire la coerenza della vista e consentire al modello di generare in modo robusto date viste di prompt in qualsiasi direzione, oltre agli input incentrati sugli oggetti. Inoltre, per migliorare la capacità e l'abilità di generalizzazione di DiffusionGS, aumentiamo i dati di addestramento in 3D sviluppando una strategia di addestramento mista scena-oggetto. Gli esperimenti mostrano che il nostro metodo gode di una migliore qualità di generazione (2,20 dB più alta in PSNR e 23,25 inferiore in FID) e una velocità oltre 5 volte più veloce (~6s su una GPU A100) rispetto ai metodi SOTA. Lo studio degli utenti e le applicazioni di testo in 3D rivelano anche i valori pratici del nostro metodo. La nostra pagina del progetto su https://caiyuanhao1998.github.io/project/DiffusionGS/ mostra il video e i risultati interattivi di generazione.
English
Existing feed-forward image-to-3D methods mainly rely on 2D multi-view
diffusion models that cannot guarantee 3D consistency. These methods easily
collapse when changing the prompt view direction and mainly handle
object-centric prompt images. In this paper, we propose a novel single-stage 3D
diffusion model, DiffusionGS, for object and scene generation from a single
view. DiffusionGS directly outputs 3D Gaussian point clouds at each timestep to
enforce view consistency and allow the model to generate robustly given prompt
views of any directions, beyond object-centric inputs. Plus, to improve the
capability and generalization ability of DiffusionGS, we scale up 3D training
data by developing a scene-object mixed training strategy. Experiments show
that our method enjoys better generation quality (2.20 dB higher in PSNR and
23.25 lower in FID) and over 5x faster speed (~6s on an A100 GPU) than SOTA
methods. The user study and text-to-3D applications also reveals the practical
values of our method. Our Project page at
https://caiyuanhao1998.github.io/project/DiffusionGS/ shows the video and
interactive generation results.Summary
AI-Generated Summary