Phidias: 텍스트, 이미지 및 3D 조건에서 참조 증강 확산을 사용하여 3D 콘텐츠를 생성하는 생성 모델
Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion
September 17, 2024
저자: Zhenwei Wang, Tengfei Wang, Zexin He, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau
cs.AI
초록
3D 모델링에서 디자이너들은 종종 기존의 3D 모델을 참조하여 새로운 모델을 만듭니다. 이러한 실천은 참조가 추가된 3D 생성을 위해 확산을 사용하는 혁신적인 생성 모델인 Phidias의 개발을 영감으로 삼았습니다. 주어진 이미지를 통해 우리의 방법은 검색된 또는 사용자 제공 3D 참조 모델을 활용하여 생성 프로세스를 안내함으로써 생성 품질, 일반화 능력 및 제어 가능성을 향상시킵니다. 우리의 모델은 세 가지 주요 구성 요소를 통합합니다: 1) 조건 강도를 동적으로 조절하는 메타-컨트롤넷, 2) 입력 이미지와 3D 참조 간의 불일치를 완화하는 동적 참조 라우팅, 그리고 3) 점진적 커리큘럼으로 자기 지도 학습이 가능한 자기 참조 보강 기능. 이러한 설계들이 종합적으로 기존 방법들보다 명확한 향상을 이루어냅니다. Phidias는 텍스트, 이미지 및 3D 조건을 사용한 3D 생성을 위한 통합된 프레임워크를 수립하여 다양한 응용 프로그램을 제공합니다.
English
In 3D modeling, designers often use an existing 3D model as a reference to
create new ones. This practice has inspired the development of Phidias, a novel
generative model that uses diffusion for reference-augmented 3D generation.
Given an image, our method leverages a retrieved or user-provided 3D reference
model to guide the generation process, thereby enhancing the generation
quality, generalization ability, and controllability. Our model integrates
three key components: 1) meta-ControlNet that dynamically modulates the
conditioning strength, 2) dynamic reference routing that mitigates misalignment
between the input image and 3D reference, and 3) self-reference augmentations
that enable self-supervised training with a progressive curriculum.
Collectively, these designs result in a clear improvement over existing
methods. Phidias establishes a unified framework for 3D generation using text,
image, and 3D conditions with versatile applications.Summary
AI-Generated Summary