Lumina-Image 2.0: Un Marco Unificado y Eficiente para la Generación de Imágenes

Resumen

Presentamos Lumina-Image 2.0, un marco avanzado de generación de texto a imagen que logra un progreso significativo en comparación con trabajos anteriores, Lumina-Next. Lumina-Image 2.0 se basa en dos principios clave: (1) Unificación: adopta una arquitectura unificada (Unified Next-DiT) que trata los tokens de texto e imagen como una secuencia conjunta, permitiendo interacciones multimodales naturales y facilitando la expansión fluida de tareas. Además, dado que los sistemas de subtitulado de alta calidad pueden proporcionar pares de entrenamiento texto-imagen semánticamente alineados, introducimos un sistema de subtitulado unificado, Unified Captioner (UniCap), diseñado específicamente para tareas de generación de texto a imagen (T2I). UniCap destaca por generar subtítulos completos y precisos, acelerando la convergencia y mejorando la adherencia a las indicaciones. (2) Eficiencia: para mejorar la eficiencia de nuestro modelo propuesto, desarrollamos estrategias de entrenamiento progresivo en múltiples etapas e introducimos técnicas de aceleración de inferencia sin comprometer la calidad de la imagen. Evaluaciones exhaustivas en benchmarks académicos y arenas públicas de texto a imagen demuestran que Lumina-Image 2.0 ofrece un rendimiento sólido incluso con solo 2.6 mil millones de parámetros, destacando su escalabilidad y eficiencia de diseño. Hemos publicado los detalles de entrenamiento, el código y los modelos en https://github.com/Alpha-VLLM/Lumina-Image-2.0.

English

We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency - to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.

Lumina-Image 2.0: Un Marco Unificado y Eficiente para la Generación de Imágenes

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Resumen

Summary

Support

Support