SplatFlow: Modello di flusso rettificato multi-vista per lo sprofondamento gaussiano 3D

SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

November 25, 2024
Autori: Hyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim
cs.AI

Abstract

La generazione e modifica basate su testo di scene 3D hanno un notevole potenziale per ottimizzare la creazione di contenuti attraverso interazioni utente intuitive. Mentre i recenti progressi sfruttano lo Splatting Gaussiano 3D (3DGS) per rendering ad alta fedeltà e in tempo reale, i metodi esistenti sono spesso specializzati e focalizzati su compiti specifici, mancando di un quadro unificato per generazione e modifica. In questo articolo, presentiamo SplatFlow, un framework completo che affronta questa lacuna consentendo la generazione e la modifica dirette tramite 3DGS. SplatFlow è composto da due componenti principali: un modello di flusso rettificato multi-vista (RF) e un Decodificatore di Splatting Gaussiano (GSDecoder). Il modello RF multi-vista opera nello spazio latente, generando immagini multi-vista, profondità e posizioni della fotocamera simultaneamente, condizionate a prompt di testo, affrontando così sfide come diverse scale di scene e complesse traiettorie della fotocamera in contesti reali. Successivamente, il GSDecoder traduce efficientemente queste uscite latenti in rappresentazioni 3DGS attraverso un metodo 3DGS feed-forward. Sfruttando tecniche di inversione e inpainting senza addestramento, SplatFlow consente una modifica 3DGS senza soluzione di continuità e supporta una vasta gamma di compiti 3D, tra cui modifica degli oggetti, sintesi di nuove visuali e stima della posa della fotocamera, all'interno di un framework unificato senza richiedere pipeline complesse aggiuntive. Confermiamo le capacità di SplatFlow sui set di dati MVImgNet e DL3DV-7K, dimostrandone la versatilità e l'efficacia in vari compiti di generazione 3D, modifica e inpainting.
English
Text-based generation and editing of 3D scenes hold significant potential for streamlining content creation through intuitive user interactions. While recent advances leverage 3D Gaussian Splatting (3DGS) for high-fidelity and real-time rendering, existing methods are often specialized and task-focused, lacking a unified framework for both generation and editing. In this paper, we introduce SplatFlow, a comprehensive framework that addresses this gap by enabling direct 3DGS generation and editing. SplatFlow comprises two main components: a multi-view rectified flow (RF) model and a Gaussian Splatting Decoder (GSDecoder). The multi-view RF model operates in latent space, generating multi-view images, depths, and camera poses simultaneously, conditioned on text prompts, thus addressing challenges like diverse scene scales and complex camera trajectories in real-world settings. Then, the GSDecoder efficiently translates these latent outputs into 3DGS representations through a feed-forward 3DGS method. Leveraging training-free inversion and inpainting techniques, SplatFlow enables seamless 3DGS editing and supports a broad range of 3D tasks-including object editing, novel view synthesis, and camera pose estimation-within a unified framework without requiring additional complex pipelines. We validate SplatFlow's capabilities on the MVImgNet and DL3DV-7K datasets, demonstrating its versatility and effectiveness in various 3D generation, editing, and inpainting-based tasks.

Summary

AI-Generated Summary

PDF102November 26, 2024