PUMA : Renforcement de MLLM unifié avec génération visuelle multi-granulaire
PUMA: Empowering Unified MLLM with Multi-granular Visual Generation
October 17, 2024
Auteurs: Rongyao Fang, Chengqi Duan, Kun Wang, Hao Li, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Hongsheng Li, Xihui Liu
cs.AI
Résumé
Les récentes avancées dans les modèles fondamentaux multimodaux ont conduit à des progrès significatifs dans la compréhension vision-langage. Des tentatives initiales ont également exploré le potentiel des grands modèles de langage multimodaux (MLLM) pour la génération de contenu visuel. Cependant, les travaux existants n'ont pas suffisamment abordé les exigences de granularité variables des différentes tâches de génération d'images au sein d'un paradigme MLLM unifié - de la diversité requise dans la génération texte-image à la précision de contrôle nécessaire dans la manipulation d'images. Dans ce travail, nous proposons PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA unifie les caractéristiques visuelles multi-granulaires à la fois en tant qu'entrées et sorties des MLLMs, traitant de manière élégante les différentes exigences de granularité des différentes tâches de génération d'images au sein d'un cadre MLLM unifié. Après un pré-entraînement multimodal et un réglage d'instructions spécifiques à la tâche, PUMA démontre sa compétence dans un large éventail de tâches multimodales. Ce travail représente une avancée significative vers un MLLM véritablement unifié capable de s'adapter aux exigences de granularité des différentes tâches visuelles. Le code et le modèle seront publiés sur https://github.com/rongyaofang/PUMA.
English
Recent advancements in multimodal foundation models have yielded significant
progress in vision-language understanding. Initial attempts have also explored
the potential of multimodal large language models (MLLMs) for visual content
generation. However, existing works have insufficiently addressed the varying
granularity demands of different image generation tasks within a unified MLLM
paradigm - from the diversity required in text-to-image generation to the
precise controllability needed in image manipulation. In this work, we propose
PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA
unifies multi-granular visual features as both inputs and outputs of MLLMs,
elegantly addressing the different granularity requirements of various image
generation tasks within a unified MLLM framework. Following multimodal
pretraining and task-specific instruction tuning, PUMA demonstrates proficiency
in a wide range of multimodal tasks. This work represents a significant step
towards a truly unified MLLM capable of adapting to the granularity demands of
various visual tasks. The code and model will be released in
https://github.com/rongyaofang/PUMA.Summary
AI-Generated Summary