ChatPaper.aiChatPaper

ILLUME+: Illuminazione di un MLLM Unificato con Tokenizzazione Visiva Duale e Affinamento a Diffusione

ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

April 2, 2025
Autori: Runhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu
cs.AI

Abstract

Presentiamo ILLUME+, che sfrutta una tokenizzazione visiva duale e un decoder di diffusione per migliorare sia la comprensione semantica profonda che la generazione di immagini ad alta fedeltà. I modelli unificati esistenti hanno faticato a gestire simultaneamente le tre capacità fondamentali in un unico modello: comprensione, generazione e modifica. Modelli come Chameleon e EMU3 utilizzano VQGAN per la discretizzazione delle immagini, ma, a causa della mancanza di interazione semantica profonda, rimangono indietro rispetto a modelli specializzati come LLaVA nei compiti di comprensione visiva. Per mitigare questo problema, LaViT e ILLUME impiegano encoder semantici per la tokenizzazione, ma hanno difficoltà nella modifica delle immagini a causa della scarsa conservazione delle texture. Nel frattempo, la serie Janus disaccoppia la rappresentazione dell'immagine in input e output, limitando le loro capacità di gestire in modo fluido la comprensione e la generazione intercalata di immagini e testo. Al contrario, ILLUME+ introduce un tokenizzatore visivo duale unificato, DualViTok, che preserva sia le texture fini che la semantica allineata al testo, consentendo una strategia di rappresentazione dell'immagine da grossolana a fine per la comprensione e la generazione multimodale. Inoltre, utilizziamo un modello di diffusione come detokenizzatore di immagini per migliorare la qualità della generazione e una super-risoluzione efficiente. ILLUME+ segue uno schema di input continuo e output discreto all'interno del MLLM unificato e adotta una procedura di addestramento progressivo che supporta risoluzioni dinamiche attraverso il tokenizzatore visivo, il MLLM e il decoder di diffusione. Questo design consente una modifica e generazione di immagini flessibile ed efficiente, basata sul contesto, attraverso una varietà di compiti. ILLUME+ (3B) mostra prestazioni competitive rispetto ai MLLM unificati esistenti e ai modelli specializzati in benchmark di comprensione, generazione e modifica multimodale. Con le sue solide prestazioni, ILLUME+ fornisce una base scalabile e versatile per future applicazioni multimodali. Pagina del progetto: https://illume-unified-mllm.github.io/.
English
We present ILLUME+ that leverages dual visual tokenization and a diffusion decoder to improve both deep semantic understanding and high-fidelity image generation. Existing unified models have struggled to simultaneously handle the three fundamental capabilities in a unified model: understanding, generation, and editing. Models like Chameleon and EMU3 utilize VQGAN for image discretization, due to the lack of deep semantic interaction, they lag behind specialist models like LLaVA in visual understanding tasks. To mitigate this, LaViT and ILLUME employ semantic encoders for tokenization, but they struggle with image editing due to poor texture preservation. Meanwhile, Janus series decouples the input and output image representation, limiting their abilities to seamlessly handle interleaved image-text understanding and generation. In contrast, ILLUME+ introduces a unified dual visual tokenizer, DualViTok, which preserves both fine-grained textures and text-aligned semantics while enabling a coarse-to-fine image representation strategy for multimodal understanding and generation. Additionally, we employ a diffusion model as the image detokenizer for enhanced generation quality and efficient super-resolution. ILLUME+ follows a continuous-input, discrete-output scheme within the unified MLLM and adopts a progressive training procedure that supports dynamic resolution across the vision tokenizer, MLLM, and diffusion decoder. This design allows for flexible and efficient context-aware image editing and generation across diverse tasks. ILLUME+ (3B) exhibits competitive performance against existing unified MLLMs and specialized models across multimodal understanding, generation, and editing benchmarks. With its strong performance, ILLUME+ provides a scalable and versatile foundation for future multimodal applications. Project Page: https://illume-unified-mllm.github.io/.

Summary

AI-Generated Summary

PDF224April 3, 2025