ILLUME+: Illuminazione di un MLLM Unificato con Tokenizzazione Visiva Duale e Affinamento a Diffusione
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement
April 2, 2025
Autori: Runhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu
cs.AI
Abstract
Presentiamo ILLUME+, che sfrutta una tokenizzazione visiva duale e un decoder di diffusione per migliorare sia la comprensione semantica profonda che la generazione di immagini ad alta fedeltà. I modelli unificati esistenti hanno faticato a gestire simultaneamente le tre capacità fondamentali in un unico modello: comprensione, generazione e modifica. Modelli come Chameleon e EMU3 utilizzano VQGAN per la discretizzazione delle immagini, ma, a causa della mancanza di interazione semantica profonda, rimangono indietro rispetto a modelli specializzati come LLaVA nei compiti di comprensione visiva. Per mitigare questo problema, LaViT e ILLUME impiegano encoder semantici per la tokenizzazione, ma hanno difficoltà nella modifica delle immagini a causa della scarsa conservazione delle texture. Nel frattempo, la serie Janus disaccoppia la rappresentazione dell'immagine in input e output, limitando le loro capacità di gestire in modo fluido la comprensione e la generazione intercalata di immagini e testo. Al contrario, ILLUME+ introduce un tokenizzatore visivo duale unificato, DualViTok, che preserva sia le texture fini che la semantica allineata al testo, consentendo una strategia di rappresentazione dell'immagine da grossolana a fine per la comprensione e la generazione multimodale. Inoltre, utilizziamo un modello di diffusione come detokenizzatore di immagini per migliorare la qualità della generazione e una super-risoluzione efficiente. ILLUME+ segue uno schema di input continuo e output discreto all'interno del MLLM unificato e adotta una procedura di addestramento progressivo che supporta risoluzioni dinamiche attraverso il tokenizzatore visivo, il MLLM e il decoder di diffusione. Questo design consente una modifica e generazione di immagini flessibile ed efficiente, basata sul contesto, attraverso una varietà di compiti. ILLUME+ (3B) mostra prestazioni competitive rispetto ai MLLM unificati esistenti e ai modelli specializzati in benchmark di comprensione, generazione e modifica multimodale. Con le sue solide prestazioni, ILLUME+ fornisce una base scalabile e versatile per future applicazioni multimodali. Pagina del progetto: https://illume-unified-mllm.github.io/.
English
We present ILLUME+ that leverages dual visual tokenization and a diffusion
decoder to improve both deep semantic understanding and high-fidelity image
generation. Existing unified models have struggled to simultaneously handle the
three fundamental capabilities in a unified model: understanding, generation,
and editing. Models like Chameleon and EMU3 utilize VQGAN for image
discretization, due to the lack of deep semantic interaction, they lag behind
specialist models like LLaVA in visual understanding tasks. To mitigate this,
LaViT and ILLUME employ semantic encoders for tokenization, but they struggle
with image editing due to poor texture preservation. Meanwhile, Janus series
decouples the input and output image representation, limiting their abilities
to seamlessly handle interleaved image-text understanding and generation. In
contrast, ILLUME+ introduces a unified dual visual tokenizer, DualViTok, which
preserves both fine-grained textures and text-aligned semantics while enabling
a coarse-to-fine image representation strategy for multimodal understanding and
generation. Additionally, we employ a diffusion model as the image detokenizer
for enhanced generation quality and efficient super-resolution. ILLUME+ follows
a continuous-input, discrete-output scheme within the unified MLLM and adopts a
progressive training procedure that supports dynamic resolution across the
vision tokenizer, MLLM, and diffusion decoder. This design allows for flexible
and efficient context-aware image editing and generation across diverse tasks.
ILLUME+ (3B) exhibits competitive performance against existing unified MLLMs
and specialized models across multimodal understanding, generation, and editing
benchmarks. With its strong performance, ILLUME+ provides a scalable and
versatile foundation for future multimodal applications. Project Page:
https://illume-unified-mllm.github.io/.Summary
AI-Generated Summary