ChatPaper.aiChatPaper

DreamDPO: Allineare la Generazione di Testo-3D con le Preferenze Umane tramite Ottimizzazione Diretta delle Preferenze

DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization

February 5, 2025
Autori: Zhenglin Zhou, Xiaobo Xia, Fan Ma, Hehe Fan, Yi Yang, Tat-Seng Chua
cs.AI

Abstract

La generazione di testo in 3D automatizza la creazione di contenuti 3D da descrizioni testuali, offrendo un potenziale trasformativo in vari campi. Tuttavia, i metodi esistenti spesso faticano ad allineare i contenuti generati con le preferenze umane, limitandone l'applicabilità e flessibilità. Per affrontare tali limitazioni, in questo articolo proponiamo DreamDPO, un framework basato sull'ottimizzazione che integra le preferenze umane nel processo di generazione 3D, attraverso un'ottimizzazione diretta delle preferenze. In pratica, DreamDPO costruisce prima esempi a coppie, quindi confronta il loro allineamento con le preferenze umane utilizzando ricompense o modelli multimodali ampi, e infine ottimizza la rappresentazione 3D con una funzione di perdita guidata dalle preferenze. Sfruttando il confronto a coppie per riflettere le preferenze, DreamDPO riduce la dipendenza dalle valutazioni di qualità puntuali precise consentendo al contempo un controllo dettagliato attraverso un'ottimizzazione guidata dalle preferenze. Gli esperimenti dimostrano che DreamDPO ottiene risultati competitivi e fornisce contenuti 3D di maggiore qualità e più controllabili rispetto ai metodi esistenti. Il codice e i modelli saranno resi open-source.
English
Text-to-3D generation automates 3D content creation from textual descriptions, which offers transformative potential across various fields. However, existing methods often struggle to align generated content with human preferences, limiting their applicability and flexibility. To address these limitations, in this paper, we propose DreamDPO, an optimization-based framework that integrates human preferences into the 3D generation process, through direct preference optimization. Practically, DreamDPO first constructs pairwise examples, then compare their alignment with human preferences using reward or large multimodal models, and lastly optimizes the 3D representation with a preference-driven loss function. By leveraging pairwise comparison to reflect preferences, DreamDPO reduces reliance on precise pointwise quality evaluations while enabling fine-grained controllability through preference-guided optimization. Experiments demonstrate that DreamDPO achieves competitive results, and provides higher-quality and more controllable 3D content compared to existing methods. The code and models will be open-sourced.

Summary

AI-Generated Summary

PDF72February 11, 2025