Turbo3D: Generazione Ultra Veloce di Testo in 3D

Abstract

Presentiamo Turbo3D, un sistema di conversione testo-3D ultra-veloce in grado di generare asset di splatting gaussiano di alta qualità in meno di un secondo. Turbo3D impiega un rapido generatore di diffusione a 4 passaggi e 4 viste e un efficiente ricostruttore gaussiano feed-forward, entrambi operanti nello spazio latente. Il generatore a 4 passaggi e 4 viste è un modello studente distillato attraverso un innovativo approccio Dual-Teacher, che incoraggia lo studente a imparare la coerenza delle viste da un insegnante multi-vista e il fotorealismo da un insegnante single-view. Spostando gli input del ricostruttore gaussiano dallo spazio dei pixel allo spazio latente, eliminiamo il tempo aggiuntivo di decodifica dell'immagine e dimezziamo la lunghezza della sequenza del trasformatore per massimizzare l'efficienza. Il nostro metodo dimostra risultati superiori nella generazione 3D rispetto ai baselines precedenti, operando in una frazione del loro tempo di esecuzione.

English

We present Turbo3D, an ultra-fast text-to-3D system capable of generating high-quality Gaussian splatting assets in under one second. Turbo3D employs a rapid 4-step, 4-view diffusion generator and an efficient feed-forward Gaussian reconstructor, both operating in latent space. The 4-step, 4-view generator is a student model distilled through a novel Dual-Teacher approach, which encourages the student to learn view consistency from a multi-view teacher and photo-realism from a single-view teacher. By shifting the Gaussian reconstructor's inputs from pixel space to latent space, we eliminate the extra image decoding time and halve the transformer sequence length for maximum efficiency. Our method demonstrates superior 3D generation results compared to previous baselines, while operating in a fraction of their runtime.

Turbo3D: Generazione Ultra Veloce di Testo in 3D

Turbo3D: Ultra-fast Text-to-3D Generation

Abstract

Support