PUMA: 다중 단위 시각 생성을 통한 통합 MLLM 강화
PUMA: Empowering Unified MLLM with Multi-granular Visual Generation
October 17, 2024
저자: Rongyao Fang, Chengqi Duan, Kun Wang, Hao Li, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Hongsheng Li, Xihui Liu
cs.AI
초록
최근의 다중 모달 기반 모델의 발전은 시각-언어 이해 분야에서 상당한 진전을 이루었습니다. 초기 시도들은 시각적 콘텐츠 생성을 위한 다중 모달 대규모 언어 모델 (MLLMs)의 잠재력을 탐구했습니다. 그러나 기존 연구는 통합된 MLLM 패러다임 내에서 다양한 이미지 생성 작업의 다양한 세분성 요구를 충분히 다루지 못했습니다 - 텍스트에서 이미지로의 생성에 필요한 다양성부터 이미지 조작에 필요한 정확한 제어 가능성까지. 본 연구에서는 PUMA, Multi-grAnular 시각적 생성을 위한 통합된 MLLM을 강화하는 것을 제안합니다. PUMA는 다중 세분 시각적 특징을 MLLM의 입력 및 출력으로 통합하여 다양한 이미지 생성 작업의 다양한 세분성 요구를 우아하게 해결하는 통합된 MLLM 프레임워크 내에서 다른 세분성 요구를 주소합니다. 다중 모달 사전 훈련 및 작업별 지시 조정을 거친 후, PUMA는 다양한 다중 모달 작업에서 능숙함을 나타냅니다. 본 연구는 다양한 시각 작업의 세분성 요구에 적응할 수 있는 진정한 통합 MLLM으로 나아가는 중요한 한걸음을 나타냅니다. 코드와 모델은 https://github.com/rongyaofang/PUMA에서 공개될 예정입니다.
English
Recent advancements in multimodal foundation models have yielded significant
progress in vision-language understanding. Initial attempts have also explored
the potential of multimodal large language models (MLLMs) for visual content
generation. However, existing works have insufficiently addressed the varying
granularity demands of different image generation tasks within a unified MLLM
paradigm - from the diversity required in text-to-image generation to the
precise controllability needed in image manipulation. In this work, we propose
PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA
unifies multi-granular visual features as both inputs and outputs of MLLMs,
elegantly addressing the different granularity requirements of various image
generation tasks within a unified MLLM framework. Following multimodal
pretraining and task-specific instruction tuning, PUMA demonstrates proficiency
in a wide range of multimodal tasks. This work represents a significant step
towards a truly unified MLLM capable of adapting to the granularity demands of
various visual tasks. The code and model will be released in
https://github.com/rongyaofang/PUMA.Summary
AI-Generated Summary