DreamPolish: 점진적 기하 생성을 통한 도메인 점수 증류
DreamPolish: Domain Score Distillation With Progressive Geometry Generation
November 3, 2024
저자: Yean Cheng, Ziqi Cai, Ming Ding, Wendi Zheng, Shiyu Huang, Yuxiao Dong, Jie Tang, Boxin Shi
cs.AI
초록
우리는 정교한 기하학과 고품질 질감을 생성하는 데 뛰어난 DreamPolish라는 텍스트 대 3D 생성 모델을 소개합니다. 기하학 구축 단계에서 우리의 접근 방식은 합성 과정의 안정성을 향상시키기 위해 여러 신경 표현을 활용합니다. 새로운 샘플된 뷰에서 기하학적 표면의 원치 않는 아티팩트를 종종 유발하는 뷰 조건부 확산 사전만에 의존하는 대신, 우리는 다양한 시야 영역에 대한 시점에 의존하는 기하학 세부 사항을 다듬기 위해 추가적인 정규 추정기를 통합합니다. 이전 단계로부터의 제한된 가이드로 인한 아티팩트를 효과적으로 개선하고 더욱 바람직한 기하학을 갖춘 3D 객체를 생성할 수 있는 몇 가지 훈련 단계만으로 구성된 표면 다듬기 단계를 제안합니다. 사전 훈련된 텍스트 대 이미지 모델을 사용한 질감 생성의 핵심 주제는 이러한 모델의 광범위한 잠재 분포에서 사실적이고 일관된 렌더링을 포함하는 적합한 도메인을 찾는 것입니다. 질감 생성 단계에서 우리는 신경 표현을 이러한 도메인으로 이끌기 위해 도메인 점수 증류(DSD)라는 새로운 점수 증류 목표를 소개합니다. 텍스트 조건부 이미지 생성 작업에서 분류기 없는 가이드(CFG)에서 영감을 받아 CFG와 변분 분포 가이드가 그라디언트 가이드의 다른 측면을 나타내며 질감 품질 향상을 위한 중요한 도메인이라는 것을 보여줍니다. 방대한 실험 결과 우리의 제안된 모델이 다듬어진 표면과 사실적인 질감을 갖춘 3D 에셋을 생성할 수 있으며 기존의 최첨단 기술을 능가한다는 것을 보여줍니다.
English
We introduce DreamPolish, a text-to-3D generation model that excels in
producing refined geometry and high-quality textures. In the geometry
construction phase, our approach leverages multiple neural representations to
enhance the stability of the synthesis process. Instead of relying solely on a
view-conditioned diffusion prior in the novel sampled views, which often leads
to undesired artifacts in the geometric surface, we incorporate an additional
normal estimator to polish the geometry details, conditioned on viewpoints with
varying field-of-views. We propose to add a surface polishing stage with only a
few training steps, which can effectively refine the artifacts attributed to
limited guidance from previous stages and produce 3D objects with more
desirable geometry. The key topic of texture generation using pretrained
text-to-image models is to find a suitable domain in the vast latent
distribution of these models that contains photorealistic and consistent
renderings. In the texture generation phase, we introduce a novel score
distillation objective, namely domain score distillation (DSD), to guide neural
representations toward such a domain. We draw inspiration from the
classifier-free guidance (CFG) in textconditioned image generation tasks and
show that CFG and variational distribution guidance represent distinct aspects
in gradient guidance and are both imperative domains for the enhancement of
texture quality. Extensive experiments show our proposed model can produce 3D
assets with polished surfaces and photorealistic textures, outperforming
existing state-of-the-art methods.Summary
AI-Generated Summary