ChatPaper.aiChatPaper

Lumina-Image 2.0: Un Marco Unificado y Eficiente para la Generación de Imágenes

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

March 27, 2025
Autores: Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao
cs.AI

Resumen

Presentamos Lumina-Image 2.0, un marco avanzado de generación de texto a imagen que logra un progreso significativo en comparación con trabajos anteriores, Lumina-Next. Lumina-Image 2.0 se basa en dos principios clave: (1) Unificación: adopta una arquitectura unificada (Unified Next-DiT) que trata los tokens de texto e imagen como una secuencia conjunta, permitiendo interacciones multimodales naturales y facilitando la expansión fluida de tareas. Además, dado que los sistemas de subtitulado de alta calidad pueden proporcionar pares de entrenamiento texto-imagen semánticamente alineados, introducimos un sistema de subtitulado unificado, Unified Captioner (UniCap), diseñado específicamente para tareas de generación de texto a imagen (T2I). UniCap destaca por generar subtítulos completos y precisos, acelerando la convergencia y mejorando la adherencia a las indicaciones. (2) Eficiencia: para mejorar la eficiencia de nuestro modelo propuesto, desarrollamos estrategias de entrenamiento progresivo en múltiples etapas e introducimos técnicas de aceleración de inferencia sin comprometer la calidad de la imagen. Evaluaciones exhaustivas en benchmarks académicos y arenas públicas de texto a imagen demuestran que Lumina-Image 2.0 ofrece un rendimiento sólido incluso con solo 2.6 mil millones de parámetros, destacando su escalabilidad y eficiencia de diseño. Hemos publicado los detalles de entrenamiento, el código y los modelos en https://github.com/Alpha-VLLM/Lumina-Image-2.0.
English
We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency - to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.

Summary

AI-Generated Summary

PDF212March 28, 2025