ChatPaper.aiChatPaper

Lumina-Image 2.0: Un Framework Unificato ed Efficiente per la Generazione di Immagini

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

March 27, 2025
Autori: Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao
cs.AI

Abstract

Presentiamo Lumina-Image 2.0, un framework avanzato per la generazione di immagini da testo che segna un progresso significativo rispetto al lavoro precedente, Lumina-Next. Lumina-Image 2.0 si basa su due principi chiave: (1) Unificazione - adotta un'architettura unificata (Unified Next-DiT) che tratta i token di testo e immagine come una sequenza congiunta, consentendo interazioni cross-modali naturali e un'espansione senza soluzione di continuità delle attività. Inoltre, poiché i sistemi di captioning di alta qualità possono fornire coppie testo-immagine semanticamente allineate, introduciamo un sistema di captioning unificato, Unified Captioner (UniCap), progettato specificamente per i task di generazione da testo a immagine (T2I). UniCap eccelle nella generazione di descrizioni complete e accurate, accelerando la convergenza e migliorando l'aderenza ai prompt. (2) Efficienza - per migliorare l'efficienza del nostro modello, sviluppiamo strategie di training progressivo multi-stadio e introduciamo tecniche di accelerazione dell'inferenza senza compromettere la qualità delle immagini. Valutazioni estese su benchmark accademici e arene pubbliche di generazione da testo a immagine dimostrano che Lumina-Image 2.0 offre prestazioni robuste anche con soli 2,6 miliardi di parametri, evidenziando la sua scalabilità ed efficienza progettuale. Abbiamo reso disponibili i dettagli del training, il codice e i modelli su https://github.com/Alpha-VLLM/Lumina-Image-2.0.
English
We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency - to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.

Summary

AI-Generated Summary

PDF212March 28, 2025