ChatPaper.aiChatPaper

Lumina-Image 2.0: Ein einheitliches und effizientes Framework zur Bildgenerierung

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

March 27, 2025
Autoren: Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao
cs.AI

Zusammenfassung

Wir stellen Lumina-Image 2.0 vor, ein fortschrittliches Text-zu-Bild-Generierungsframework, das im Vergleich zum Vorgänger Lumina-Next bedeutende Fortschritte erzielt. Lumina-Image 2.0 basiert auf zwei zentralen Prinzipien: (1) Vereinheitlichung – es verwendet eine einheitliche Architektur (Unified Next-DiT), die Text- und Bild-Token als eine gemeinsame Sequenz behandelt, wodurch natürliche cross-modale Interaktionen ermöglicht und eine nahtlose Aufgabenausweitung erleichtert wird. Darüber hinaus führen wir, da hochwertige Bildbeschreibungsmodelle semantisch gut abgestimmte Text-Bild-Trainingspaare liefern können, ein einheitliches Beschreibungssystem, Unified Captioner (UniCap), speziell für Text-zu-Bild-Generierungsaufgaben ein. UniCap zeichnet sich durch die Erstellung umfassender und präziser Beschreibungen aus, was die Konvergenz beschleunigt und die Prompt-Treue verbessert. (2) Effizienz – um die Effizienz unseres vorgeschlagenen Modells zu steigern, entwickeln wir mehrstufige progressive Trainingsstrategien und führen Inferenzbeschleunigungstechniken ein, ohne die Bildqualität zu beeinträchtigen. Umfangreiche Evaluierungen auf akademischen Benchmarks und öffentlichen Text-zu-Bild-Plattformen zeigen, dass Lumina-Image 2.0 selbst mit nur 2,6 Milliarden Parametern starke Leistungen erbringt, was seine Skalierbarkeit und Designeffizienz unterstreicht. Wir haben unsere Trainingsdetails, den Code und die Modelle unter https://github.com/Alpha-VLLM/Lumina-Image-2.0 veröffentlicht.
English
We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency - to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.

Summary

AI-Generated Summary

PDF182March 28, 2025