ChatPaper.aiChatPaper

터보3D: 초고속 텍스트-3D 생성

Turbo3D: Ultra-fast Text-to-3D Generation

December 5, 2024
저자: Hanzhe Hu, Tianwei Yin, Fujun Luan, Yiwei Hu, Hao Tan, Zexiang Xu, Sai Bi, Shubham Tulsiani, Kai Zhang
cs.AI

초록

우리는 Turbo3D를 제시합니다. Turbo3D는 1초 미만의 시간 안에 고품질의 가우시안 스플래팅 자산을 생성할 수 있는 초고속 텍스트-3D 시스템입니다. Turbo3D는 빠른 4단계, 4뷰 확산 생성기와 효율적인 피드포워드 가우시안 재구성기를 활용하며 둘 다 잠재 공간에서 작동합니다. 4단계, 4뷰 생성기는 새로운 이중 교사 접근법을 통해 정제된 스튜던트 모델로, 이는 스튜던트가 다중 뷰 교사로부터 뷰 일관성을 학습하고 단일 뷰 교사로부터 사진 현실성을 습득하도록 장려합니다. 가우시안 재구성기의 입력을 픽셀 공간에서 잠재 공간으로 이동함으로써, 우리는 추가 이미지 디코딩 시간을 제거하고 최대 효율성을 위해 트랜스포머 시퀀스 길이를 절반으로 줄였습니다. 우리의 방법은 이전 기준선과 비교하여 우수한 3D 생성 결과를 보여주며, 그들의 실행 시간의 일부에서 작동합니다.
English
We present Turbo3D, an ultra-fast text-to-3D system capable of generating high-quality Gaussian splatting assets in under one second. Turbo3D employs a rapid 4-step, 4-view diffusion generator and an efficient feed-forward Gaussian reconstructor, both operating in latent space. The 4-step, 4-view generator is a student model distilled through a novel Dual-Teacher approach, which encourages the student to learn view consistency from a multi-view teacher and photo-realism from a single-view teacher. By shifting the Gaussian reconstructor's inputs from pixel space to latent space, we eliminate the extra image decoding time and halve the transformer sequence length for maximum efficiency. Our method demonstrates superior 3D generation results compared to previous baselines, while operating in a fraction of their runtime.

Summary

AI-Generated Summary

PDF42December 10, 2024