ORIGEN: Grounding dell'Orientamento 3D Zero-Shot nella Generazione di Immagini da Testo
ORIGEN: Zero-Shot 3D Orientation Grounding in Text-to-Image Generation
March 28, 2025
Autori: Yunhong Min, Daehyeon Choi, Kyeongmin Yeo, Jihyun Lee, Minhyuk Sung
cs.AI
Abstract
Presentiamo ORIGEN, il primo metodo zero-shot per il grounding dell'orientamento 3D nella generazione di immagini da testo, applicabile a più oggetti e categorie diverse. Mentre i precedenti lavori sul grounding spaziale nella generazione di immagini si sono principalmente concentrati sul posizionamento 2D, mancano di controllo sull'orientamento 3D. Per affrontare questo problema, proponiamo un approccio di campionamento guidato da ricompensa utilizzando un modello discriminativo pre-addestrato per la stima dell'orientamento 3D e un modello generativo di flusso one-step da testo a immagine. Sebbene l'ottimizzazione basata su ascesa del gradiente sia una scelta naturale per la guida basata su ricompensa, essa fatica a mantenere il realismo dell'immagine. Invece, adottiamo un approccio basato sul campionamento utilizzando la dinamica di Langevin, che estende l'ascesa del gradiente semplicemente iniettando rumore casuale—richiedendo solo una singola riga di codice aggiuntiva. Inoltre, introduciamo un ridimensionamento temporale adattivo basato sulla funzione di ricompensa per accelerare la convergenza. I nostri esperimenti dimostrano che ORIGEN supera sia i metodi basati su addestramento che quelli di guida al momento del test, sia nelle metriche quantitative che negli studi con utenti.
English
We introduce ORIGEN, the first zero-shot method for 3D orientation grounding
in text-to-image generation across multiple objects and diverse categories.
While previous work on spatial grounding in image generation has mainly focused
on 2D positioning, it lacks control over 3D orientation. To address this, we
propose a reward-guided sampling approach using a pretrained discriminative
model for 3D orientation estimation and a one-step text-to-image generative
flow model. While gradient-ascent-based optimization is a natural choice for
reward-based guidance, it struggles to maintain image realism. Instead, we
adopt a sampling-based approach using Langevin dynamics, which extends gradient
ascent by simply injecting random noise--requiring just a single additional
line of code. Additionally, we introduce adaptive time rescaling based on the
reward function to accelerate convergence. Our experiments show that ORIGEN
outperforms both training-based and test-time guidance methods across
quantitative metrics and user studies.Summary
AI-Generated Summary