PUMA: Het versterken van Verenigde MLLM met Multi-granulaire Visuele Generatie
PUMA: Empowering Unified MLLM with Multi-granular Visual Generation
October 17, 2024
Auteurs: Rongyao Fang, Chengqi Duan, Kun Wang, Hao Li, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Hongsheng Li, Xihui Liu
cs.AI
Samenvatting
Recente ontwikkelingen in multimodale grondslagmodellen hebben aanzienlijke vooruitgang geboekt in het begrijpen van visuele taal. Initiatieven hebben ook de potentie van multimodale grote taalmodellen (MLLM's) verkend voor het genereren van visuele inhoud. Bestaande werken hebben echter onvoldoende aandacht besteed aan de verschillende granulariteitsvereisten van verschillende beeldgeneratietaken binnen een verenigd MLLM-paradigma - van de diversiteit die nodig is bij tekst-naar-beeldgeneratie tot de precieze controleerbaarheid die nodig is bij beeldmanipulatie. In dit werk stellen we PUMA voor, waarmee Unified MLLM wordt versterkt met Multi-granulaire visuele generatie. PUMA verenigt multi-granulaire visuele kenmerken als zowel invoer als uitvoer van MLLM's, waarbij op elegante wijze wordt ingegaan op de verschillende granulariteitsvereisten van verschillende beeldgeneratietaken binnen een verenigd MLLM-framework. Na multimodale vooraftraining en taakspecifieke instructieafstemming toont PUMA bekwaamheid in een breed scala aan multimodale taken. Dit werk vertegenwoordigt een significante stap naar een werkelijk verenigd MLLM dat in staat is om zich aan te passen aan de granulariteitsvereisten van verschillende visuele taken. De code en het model zullen worden vrijgegeven op https://github.com/rongyaofang/PUMA.
English
Recent advancements in multimodal foundation models have yielded significant
progress in vision-language understanding. Initial attempts have also explored
the potential of multimodal large language models (MLLMs) for visual content
generation. However, existing works have insufficiently addressed the varying
granularity demands of different image generation tasks within a unified MLLM
paradigm - from the diversity required in text-to-image generation to the
precise controllability needed in image manipulation. In this work, we propose
PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA
unifies multi-granular visual features as both inputs and outputs of MLLMs,
elegantly addressing the different granularity requirements of various image
generation tasks within a unified MLLM framework. Following multimodal
pretraining and task-specific instruction tuning, PUMA demonstrates proficiency
in a wide range of multimodal tasks. This work represents a significant step
towards a truly unified MLLM capable of adapting to the granularity demands of
various visual tasks. The code and model will be released in
https://github.com/rongyaofang/PUMA.Summary
AI-Generated Summary