PUMA : Renforcement de MLLM unifié avec génération visuelle multi-granulaire

Résumé

Les récentes avancées dans les modèles fondamentaux multimodaux ont conduit à des progrès significatifs dans la compréhension vision-langage. Des tentatives initiales ont également exploré le potentiel des grands modèles de langage multimodaux (MLLM) pour la génération de contenu visuel. Cependant, les travaux existants n'ont pas suffisamment abordé les exigences de granularité variables des différentes tâches de génération d'images au sein d'un paradigme MLLM unifié - de la diversité requise dans la génération texte-image à la précision de contrôle nécessaire dans la manipulation d'images. Dans ce travail, nous proposons PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA unifie les caractéristiques visuelles multi-granulaires à la fois en tant qu'entrées et sorties des MLLMs, traitant de manière élégante les différentes exigences de granularité des différentes tâches de génération d'images au sein d'un cadre MLLM unifié. Après un pré-entraînement multimodal et un réglage d'instructions spécifiques à la tâche, PUMA démontre sa compétence dans un large éventail de tâches multimodales. Ce travail représente une avancée significative vers un MLLM véritablement unifié capable de s'adapter aux exigences de granularité des différentes tâches visuelles. Le code et le modèle seront publiés sur https://github.com/rongyaofang/PUMA.

English

Recent advancements in multimodal foundation models have yielded significant progress in vision-language understanding. Initial attempts have also explored the potential of multimodal large language models (MLLMs) for visual content generation. However, existing works have insufficiently addressed the varying granularity demands of different image generation tasks within a unified MLLM paradigm - from the diversity required in text-to-image generation to the precise controllability needed in image manipulation. In this work, we propose PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA unifies multi-granular visual features as both inputs and outputs of MLLMs, elegantly addressing the different granularity requirements of various image generation tasks within a unified MLLM framework. Following multimodal pretraining and task-specific instruction tuning, PUMA demonstrates proficiency in a wide range of multimodal tasks. This work represents a significant step towards a truly unified MLLM capable of adapting to the granularity demands of various visual tasks. The code and model will be released in https://github.com/rongyaofang/PUMA.

PUMA : Renforcement de MLLM unifié avec génération visuelle multi-granulaire

PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

Résumé

Summary

Support