Lumina-Image 2.0: Ein einheitliches und effizientes Framework zur Bildgenerierung

Zusammenfassung

Wir stellen Lumina-Image 2.0 vor, ein fortschrittliches Text-zu-Bild-Generierungsframework, das im Vergleich zum Vorgänger Lumina-Next bedeutende Fortschritte erzielt. Lumina-Image 2.0 basiert auf zwei zentralen Prinzipien: (1) Vereinheitlichung – es verwendet eine einheitliche Architektur (Unified Next-DiT), die Text- und Bild-Token als eine gemeinsame Sequenz behandelt, wodurch natürliche cross-modale Interaktionen ermöglicht und eine nahtlose Aufgabenausweitung erleichtert wird. Darüber hinaus führen wir, da hochwertige Bildbeschreibungsmodelle semantisch gut abgestimmte Text-Bild-Trainingspaare liefern können, ein einheitliches Beschreibungssystem, Unified Captioner (UniCap), speziell für Text-zu-Bild-Generierungsaufgaben ein. UniCap zeichnet sich durch die Erstellung umfassender und präziser Beschreibungen aus, was die Konvergenz beschleunigt und die Prompt-Treue verbessert. (2) Effizienz – um die Effizienz unseres vorgeschlagenen Modells zu steigern, entwickeln wir mehrstufige progressive Trainingsstrategien und führen Inferenzbeschleunigungstechniken ein, ohne die Bildqualität zu beeinträchtigen. Umfangreiche Evaluierungen auf akademischen Benchmarks und öffentlichen Text-zu-Bild-Plattformen zeigen, dass Lumina-Image 2.0 selbst mit nur 2,6 Milliarden Parametern starke Leistungen erbringt, was seine Skalierbarkeit und Designeffizienz unterstreicht. Wir haben unsere Trainingsdetails, den Code und die Modelle unter https://github.com/Alpha-VLLM/Lumina-Image-2.0 veröffentlicht.

English

We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency - to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.

Lumina-Image 2.0: Ein einheitliches und effizientes Framework zur Bildgenerierung

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Zusammenfassung

Summary

Support