DreamDPO: 직접 선호도 최적화를 통해 텍스트 대 3D 생성을 인간의 선호도와 일치시키다
DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization
February 5, 2025
저자: Zhenglin Zhou, Xiaobo Xia, Fan Ma, Hehe Fan, Yi Yang, Tat-Seng Chua
cs.AI
초록
텍스트에서 3D 생성은 텍스트 설명으로부터 3D 콘텐츠를 자동으로 생성하여 다양한 분야에서 혁신적인 잠재력을 제공합니다. 그러나 기존 방법은 종종 생성된 콘텐츠를 인간의 선호도와 조화시키는 데 어려움을 겪어 적용 가능성과 유연성을 제한합니다. 이러한 한계를 극복하기 위해 본 논문에서는 DreamDPO를 제안합니다. DreamDPO는 최적화 기반 프레임워크로, 직접적인 선호도 최적화를 통해 인간의 선호도를 3D 생성 프로세스에 통합합니다. DreamDPO는 먼저 pairwise 예제를 구성하고, 그들의 인간의 선호도와의 조화를 보상이나 대규모 다중모달 모델을 사용하여 비교하며, 마지막으로 선호도 중심 손실 함수를 사용하여 3D 표현을 최적화합니다. 선호도를 반영하기 위해 pairwise 비교를 활용함으로써 DreamDPO는 정확한 점별 품질 평가에 의존하는 것을 줄이면서 선호도에 따른 최적화를 통해 세밀한 제어 가능성을 제공합니다. 실험 결과는 DreamDPO가 경쟁력 있는 결과를 달성하며, 기존 방법에 비해 더 높은 품질과 더 많은 제어 가능성을 제공함을 보여줍니다. 코드와 모델은 오픈 소스로 공개될 예정입니다.
English
Text-to-3D generation automates 3D content creation from textual
descriptions, which offers transformative potential across various fields.
However, existing methods often struggle to align generated content with human
preferences, limiting their applicability and flexibility. To address these
limitations, in this paper, we propose DreamDPO, an optimization-based
framework that integrates human preferences into the 3D generation process,
through direct preference optimization. Practically, DreamDPO first constructs
pairwise examples, then compare their alignment with human preferences using
reward or large multimodal models, and lastly optimizes the 3D representation
with a preference-driven loss function. By leveraging pairwise comparison to
reflect preferences, DreamDPO reduces reliance on precise pointwise quality
evaluations while enabling fine-grained controllability through
preference-guided optimization. Experiments demonstrate that DreamDPO achieves
competitive results, and provides higher-quality and more controllable 3D
content compared to existing methods. The code and models will be open-sourced.Summary
AI-Generated Summary