PUMA: Het versterken van Verenigde MLLM met Multi-granulaire Visuele Generatie

Samenvatting

Recente ontwikkelingen in multimodale grondslagmodellen hebben aanzienlijke vooruitgang geboekt in het begrijpen van visuele taal. Initiatieven hebben ook de potentie van multimodale grote taalmodellen (MLLM's) verkend voor het genereren van visuele inhoud. Bestaande werken hebben echter onvoldoende aandacht besteed aan de verschillende granulariteitsvereisten van verschillende beeldgeneratietaken binnen een verenigd MLLM-paradigma - van de diversiteit die nodig is bij tekst-naar-beeldgeneratie tot de precieze controleerbaarheid die nodig is bij beeldmanipulatie. In dit werk stellen we PUMA voor, waarmee Unified MLLM wordt versterkt met Multi-granulaire visuele generatie. PUMA verenigt multi-granulaire visuele kenmerken als zowel invoer als uitvoer van MLLM's, waarbij op elegante wijze wordt ingegaan op de verschillende granulariteitsvereisten van verschillende beeldgeneratietaken binnen een verenigd MLLM-framework. Na multimodale vooraftraining en taakspecifieke instructieafstemming toont PUMA bekwaamheid in een breed scala aan multimodale taken. Dit werk vertegenwoordigt een significante stap naar een werkelijk verenigd MLLM dat in staat is om zich aan te passen aan de granulariteitsvereisten van verschillende visuele taken. De code en het model zullen worden vrijgegeven op https://github.com/rongyaofang/PUMA.

English

Recent advancements in multimodal foundation models have yielded significant progress in vision-language understanding. Initial attempts have also explored the potential of multimodal large language models (MLLMs) for visual content generation. However, existing works have insufficiently addressed the varying granularity demands of different image generation tasks within a unified MLLM paradigm - from the diversity required in text-to-image generation to the precise controllability needed in image manipulation. In this work, we propose PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA unifies multi-granular visual features as both inputs and outputs of MLLMs, elegantly addressing the different granularity requirements of various image generation tasks within a unified MLLM framework. Following multimodal pretraining and task-specific instruction tuning, PUMA demonstrates proficiency in a wide range of multimodal tasks. This work represents a significant step towards a truly unified MLLM capable of adapting to the granularity demands of various visual tasks. The code and model will be released in https://github.com/rongyaofang/PUMA.

PUMA: Het versterken van Verenigde MLLM met Multi-granulaire Visuele Generatie

PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

Samenvatting

Summary

Support