ChatPaper.aiChatPaper

CoRe^2: Sammeln, Reflektieren und Verfeinern, um besser und schneller zu generieren

CoRe^2: Collect, Reflect and Refine to Generate Better and Faster

March 12, 2025
Autoren: Shitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie
cs.AI

Zusammenfassung

Die Entwicklung von Text-zu-Bild (T2I)-Generierungsmodellen, die sowohl schnell als auch qualitativ hochwertig sampeln können, stellt eine vielversprechende Forschungsrichtung dar. Bisherige Studien konzentrierten sich typischerweise entweder auf die Verbesserung der visuellen Qualität der synthetisierten Bilder auf Kosten der Sampling-Effizienz oder auf die drastische Beschleunigung des Samplings ohne Verbesserung der generativen Fähigkeiten des Basismodells. Darüber hinaus konnten nahezu alle Inferenzmethoden keine stabile Leistung gleichzeitig sowohl bei Diffusionsmodellen (DMs) als auch bei visuellen autoregressiven Modellen (ARMs) gewährleisten. In diesem Artikel stellen wir ein neuartiges Plug-and-Play-Inferenzparadigma vor, CoRe^2, das aus drei Teilprozessen besteht: Collect, Reflect und Refine. CoRe^2 sammelt zunächst Trajektorien der klassifikatorfreien Führung (CFG) und verwendet dann die gesammelten Daten, um ein schwaches Modell zu trainieren, das die leicht zu erlernenden Inhalte widerspiegelt und gleichzeitig die Anzahl der Funktionsauswertungen während der Inferenz halbiert. Anschließend nutzt CoRe^2 eine schwache-zu-starke Führung, um die bedingte Ausgabe zu verfeinern und dadurch die Fähigkeit des Modells zur Erzeugung von hochfrequenten und realistischen Inhalten zu verbessern, die für das Basismodell schwer zu erfassen sind. Nach unserem besten Wissen ist CoRe^2 das erste Modell, das sowohl Effizienz als auch Effektivität über eine breite Palette von DMs, einschließlich SDXL, SD3.5 und FLUX, sowie ARMs wie LlamaGen demonstriert. Es hat signifikante Leistungsverbesserungen auf HPD v2, Pick-of-Pic, Drawbench, GenEval und T2I-Compbench gezeigt. Darüber hinaus kann CoRe^2 nahtlos mit dem state-of-the-art Z-Sampling integriert werden und übertrifft dieses um 0,3 und 0,16 auf PickScore und AES, während es eine Zeitersparnis von 5,64 Sekunden mit SD3.5 erreicht. Der Code ist unter https://github.com/xie-lab-ml/CoRe/tree/main veröffentlicht.
English
Making text-to-image (T2I) generative model sample both fast and well represents a promising research direction. Previous studies have typically focused on either enhancing the visual quality of synthesized images at the expense of sampling efficiency or dramatically accelerating sampling without improving the base model's generative capacity. Moreover, nearly all inference methods have not been able to ensure stable performance simultaneously on both diffusion models (DMs) and visual autoregressive models (ARMs). In this paper, we introduce a novel plug-and-play inference paradigm, CoRe^2, which comprises three subprocesses: Collect, Reflect, and Refine. CoRe^2 first collects classifier-free guidance (CFG) trajectories, and then use collected data to train a weak model that reflects the easy-to-learn contents while reducing number of function evaluations during inference by half. Subsequently, CoRe^2 employs weak-to-strong guidance to refine the conditional output, thereby improving the model's capacity to generate high-frequency and realistic content, which is difficult for the base model to capture. To the best of our knowledge, CoRe^2 is the first to demonstrate both efficiency and effectiveness across a wide range of DMs, including SDXL, SD3.5, and FLUX, as well as ARMs like LlamaGen. It has exhibited significant performance improvements on HPD v2, Pick-of-Pic, Drawbench, GenEval, and T2I-Compbench. Furthermore, CoRe^2 can be seamlessly integrated with the state-of-the-art Z-Sampling, outperforming it by 0.3 and 0.16 on PickScore and AES, while achieving 5.64s time saving using SD3.5.Code is released at https://github.com/xie-lab-ml/CoRe/tree/main.

Summary

AI-Generated Summary

PDF334March 14, 2025