Van Reflectie naar Perfectie: Schaalvergroting van Inferentie-Tijd Optimalisatie voor Tekst-naar-Beeld Diffusiemodellen via Reflectie Afstemming
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning
April 22, 2025
Auteurs: Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li
cs.AI
Samenvatting
Recente tekst-naar-beeld diffusiemodellen bereiken indrukwekkende visuele kwaliteit door uitgebreide schaalvergroting van trainingsdata en modelparameters, maar ze hebben vaak moeite met complexe scènes en fijngranulaire details. Geïnspireerd door de zelfreflectiecapaciteiten die opkomen in grote taalmodellen, stellen we ReflectionFlow voor, een inferentietijd-framework dat diffusiemodellen in staat stelt om iteratief te reflecteren op en hun uitvoer te verfijnen. ReflectionFlow introduceert drie complementaire schaalassen tijdens inferentie: (1) ruisniveau-schaling om de latente initialisatie te optimaliseren; (2) promptniveau-schaling voor precieze semantische begeleiding; en vooral (3) reflectieniveau-schaling, die expliciet bruikbare reflecties biedt om eerdere generaties iteratief te beoordelen en te corrigeren. Om reflectieniveau-schaling te faciliteren, construeren we GenRef, een grootschalige dataset bestaande uit 1 miljoen triplets, elk met een reflectie, een gebrekkige afbeelding en een verbeterde afbeelding. Door gebruik te maken van deze dataset, voeren we efficiënt reflectie-afstemming uit op de state-of-the-art diffusietransformer, FLUX.1-dev, door multimodale inputs gezamenlijk te modelleren binnen een uniform framework. Experimentele resultaten tonen aan dat ReflectionFlow aanzienlijk beter presteert dan naïeve ruisniveau-schalingmethoden, en biedt een schaalbare en rekenkundig efficiënte oplossing voor hogere kwaliteit beeld-synthese bij uitdagende taken.
English
Recent text-to-image diffusion models achieve impressive visual quality
through extensive scaling of training data and model parameters, yet they often
struggle with complex scenes and fine-grained details. Inspired by the
self-reflection capabilities emergent in large language models, we propose
ReflectionFlow, an inference-time framework enabling diffusion models to
iteratively reflect upon and refine their outputs. ReflectionFlow introduces
three complementary inference-time scaling axes: (1) noise-level scaling to
optimize latent initialization; (2) prompt-level scaling for precise semantic
guidance; and most notably, (3) reflection-level scaling, which explicitly
provides actionable reflections to iteratively assess and correct previous
generations. To facilitate reflection-level scaling, we construct GenRef, a
large-scale dataset comprising 1 million triplets, each containing a
reflection, a flawed image, and an enhanced image. Leveraging this dataset, we
efficiently perform reflection tuning on state-of-the-art diffusion
transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified
framework. Experimental results show that ReflectionFlow significantly
outperforms naive noise-level scaling methods, offering a scalable and
compute-efficient solution toward higher-quality image synthesis on challenging
tasks.Summary
AI-Generated Summary