Lumina-Image 2.0: Un Framework Unificato ed Efficiente per la Generazione di Immagini

Abstract

Presentiamo Lumina-Image 2.0, un framework avanzato per la generazione di immagini da testo che segna un progresso significativo rispetto al lavoro precedente, Lumina-Next. Lumina-Image 2.0 si basa su due principi chiave: (1) Unificazione - adotta un'architettura unificata (Unified Next-DiT) che tratta i token di testo e immagine come una sequenza congiunta, consentendo interazioni cross-modali naturali e un'espansione senza soluzione di continuità delle attività. Inoltre, poiché i sistemi di captioning di alta qualità possono fornire coppie testo-immagine semanticamente allineate, introduciamo un sistema di captioning unificato, Unified Captioner (UniCap), progettato specificamente per i task di generazione da testo a immagine (T2I). UniCap eccelle nella generazione di descrizioni complete e accurate, accelerando la convergenza e migliorando l'aderenza ai prompt. (2) Efficienza - per migliorare l'efficienza del nostro modello, sviluppiamo strategie di training progressivo multi-stadio e introduciamo tecniche di accelerazione dell'inferenza senza compromettere la qualità delle immagini. Valutazioni estese su benchmark accademici e arene pubbliche di generazione da testo a immagine dimostrano che Lumina-Image 2.0 offre prestazioni robuste anche con soli 2,6 miliardi di parametri, evidenziando la sua scalabilità ed efficienza progettuale. Abbiamo reso disponibili i dettagli del training, il codice e i modelli su https://github.com/Alpha-VLLM/Lumina-Image-2.0.

English

We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency - to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.

Lumina-Image 2.0: Un Framework Unificato ed Efficiente per la Generazione di Immagini

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Abstract

Summary

Support

Support