Migliora il Tuo Modello di Generazione di Immagini Umane tramite Ottimizzazione Diretta delle Preferenze con Feedback AI

Abstract

La generazione di immagini umane di alta qualità attraverso metodi di testo-immagine (T2I) rappresenta un compito significativo ma impegnativo. A differenza della generazione di immagini generiche, la sintesi di immagini umane deve soddisfare criteri rigorosi relativi alla postura, all'anatomia e all'allineamento con i prompt testuali, rendendo particolarmente difficile ottenere risultati realistici. I recenti progressi nella generazione T2I basati su modelli di diffusione hanno mostrato promettenti risultati, ma permangono sfide nel soddisfare preferenze specifiche per le immagini umane. In questo articolo, introduciamo un approccio innovativo specificamente progettato per la generazione di immagini umane, utilizzando l'ottimizzazione diretta delle preferenze (DPO). In particolare, presentiamo un metodo efficiente per la costruzione di un dataset DPO specializzato per l'addestramento di modelli di generazione di immagini umane senza la necessità di costosi feedback umani. Proponiamo inoltre una funzione di perdita modificata che migliora il processo di addestramento DPO, riducendo gli artefatti e aumentando la fedeltà delle immagini. Il nostro metodo dimostra versatilità ed efficacia nella generazione di immagini umane, inclusa la generazione personalizzata di testo-immagine. Attraverso valutazioni approfondite, mostriamo che il nostro approccio avanza significativamente lo stato dell'arte nella generazione di immagini umane, raggiungendo risultati superiori in termini di anatomie naturali, posture e allineamento testo-immagine.

English

The generation of high-quality human images through text-to-image (T2I) methods is a significant yet challenging task. Distinct from general image generation, human image synthesis must satisfy stringent criteria related to human pose, anatomy, and alignment with textual prompts, making it particularly difficult to achieve realistic results. Recent advancements in T2I generation based on diffusion models have shown promise, yet challenges remain in meeting human-specific preferences. In this paper, we introduce a novel approach tailored specifically for human image generation utilizing Direct Preference Optimization (DPO). Specifically, we introduce an efficient method for constructing a specialized DPO dataset for training human image generation models without the need for costly human feedback. We also propose a modified loss function that enhances the DPO training process by minimizing artifacts and improving image fidelity. Our method demonstrates its versatility and effectiveness in generating human images, including personalized text-to-image generation. Through comprehensive evaluations, we show that our approach significantly advances the state of human image generation, achieving superior results in terms of natural anatomies, poses, and text-image alignment.

Migliora il Tuo Modello di Generazione di Immagini Umane tramite Ottimizzazione Diretta delle Preferenze con Feedback AI

Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

Abstract

Summary

Support

Support