Belohnungen reichen aus für die schnelle fotorealistische Text-zu-Bild-Generierung.
Rewards Are Enough for Fast Photo-Realistic Text-to-image Generation
March 17, 2025
Autoren: Yihong Luo, Tianyang Hu, Weijian Luo, Kenji Kawaguchi, Jing Tang
cs.AI
Zusammenfassung
Die Ausrichtung generierter Bilder an komplexe Textprompts und menschliche Präferenzen stellt eine zentrale Herausforderung im Bereich der Künstlichen Intelligenz-generierten Inhalte (AIGC) dar. Mit der aufkommenden Belohnungs-verstärkten Diffusionsdestillation als vielversprechendem Ansatz, der die Steuerbarkeit und Treue von Text-zu-Bild-Modellen verbessert, identifizieren wir einen grundlegenden Paradigmenwechsel: Wenn die Bedingungen spezifischer und die Belohnungssignale stärker werden, übernehmen die Belohnungen selbst die dominierende Rolle bei der Generierung. Im Gegensatz dazu dienen die Diffusionsverluste als eine übermäßig teure Form der Regularisierung. Um unsere Hypothese umfassend zu validieren, führen wir R0 ein, einen neuartigen Ansatz zur bedingten Generierung durch regularisierte Belohnungsmaximierung. Anstatt sich auf knifflige Diffusionsdestillationsverluste zu verlassen, schlägt R0 eine neue Perspektive vor, die die Bildgenerierung als ein Optimierungsproblem im Datenraum behandelt, das darauf abzielt, gültige Bilder mit hohen kompositionellen Belohnungen zu finden. Durch innovative Designs der Generatorparametrisierung und geeignete Regularisierungstechniken trainieren wir state-of-the-art Text-zu-Bild-Generationsmodelle mit wenigen Schritten in großem Maßstab mit R0. Unsere Ergebnisse stellen die konventionelle Weisheit der Diffusionsnachschulung und der bedingten Generierung in Frage, indem sie zeigen, dass Belohnungen in Szenarien mit komplexen Bedingungen eine dominante Rolle spielen. Wir hoffen, dass unsere Erkenntnisse zu weiteren Forschungen in humanzentrierten und belohnungszentrierten Generationsparadigmen im breiteren Feld der AIGC beitragen können. Der Code ist verfügbar unter https://github.com/Luo-Yihong/R0.
English
Aligning generated images to complicated text prompts and human preferences
is a central challenge in Artificial Intelligence-Generated Content (AIGC).
With reward-enhanced diffusion distillation emerging as a promising approach
that boosts controllability and fidelity of text-to-image models, we identify a
fundamental paradigm shift: as conditions become more specific and reward
signals stronger, the rewards themselves become the dominant force in
generation. In contrast, the diffusion losses serve as an overly expensive form
of regularization. To thoroughly validate our hypothesis, we introduce R0, a
novel conditional generation approach via regularized reward maximization.
Instead of relying on tricky diffusion distillation losses, R0 proposes a new
perspective that treats image generations as an optimization problem in data
space which aims to search for valid images that have high compositional
rewards. By innovative designs of the generator parameterization and proper
regularization techniques, we train state-of-the-art few-step text-to-image
generative models with R0 at scales. Our results challenge the conventional
wisdom of diffusion post-training and conditional generation by demonstrating
that rewards play a dominant role in scenarios with complex conditions. We hope
our findings can contribute to further research into human-centric and
reward-centric generation paradigms across the broader field of AIGC. Code is
available at https://github.com/Luo-Yihong/R0.Summary
AI-Generated Summary