ChatPaper.aiChatPaper

다중 모달 LLM 미세 조정의 방법, 분석 및 통찰력에 대한 지침

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

September 30, 2024
저자: Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang
cs.AI

초록

우리는 MM1.5를 제시합니다. MM1.5는 텍스트 풍부한 이미지 이해, 시각적 지칭 및 기반, 그리고 다중 이미지 추론 능력을 향상시키기 위해 설계된 새로운 멀티모달 대형 언어 모델(MLLM) 패밀리입니다. MM1 아키텍처를 기반으로 구축된 MM1.5는 모델 훈련에 데이터 중심 접근 방식을 채택하여, 전체 모델 훈련 주기 동안 다양한 데이터 혼합의 영향을 체계적으로 탐구합니다. 이는 고품질 OCR 데이터 및 합성 캡션을 계속적으로 사전 훈련에 사용하고, 지도된 세밀한 튜닝을 위한 최적화된 시각적 지시 데이터 혼합을 포함합니다. 우리의 모델은 10억부터 300억까지의 매개변수를 갖추며, 밀집형과 전문가 혼합(MoE) 변형을 모두 포함하며, 신중한 데이터 선별과 훈련 전략이 심지어 소규모(10억 및 30억)에서도 강력한 성능을 얻을 수 있음을 보여줍니다. 게다가, 우리는 비디오 이해를 위해 설계된 MM1.5-Video와 모바일 UI 이해에 특화된 MM1.5-UI 두 가지 전문화된 변형을 소개합니다. 광범위한 경험적 연구와 제거 실험을 통해, 우리는 최종 설계에 영향을 미치는 훈련 과정과 결정에 대한 상세한 통찰을 제공하며, MLLM 개발에 대한 미래 연구를 위한 가치 있는 지침을 제공합니다.
English
We present MM1.5, a new family of multimodal large language models (MLLMs) designed to enhance capabilities in text-rich image understanding, visual referring and grounding, and multi-image reasoning. Building upon the MM1 architecture, MM1.5 adopts a data-centric approach to model training, systematically exploring the impact of diverse data mixtures across the entire model training lifecycle. This includes high-quality OCR data and synthetic captions for continual pre-training, as well as an optimized visual instruction-tuning data mixture for supervised fine-tuning. Our models range from 1B to 30B parameters, encompassing both dense and mixture-of-experts (MoE) variants, and demonstrate that careful data curation and training strategies can yield strong performance even at small scales (1B and 3B). Additionally, we introduce two specialized variants: MM1.5-Video, designed for video understanding, and MM1.5-UI, tailored for mobile UI understanding. Through extensive empirical studies and ablations, we provide detailed insights into the training processes and decisions that inform our final designs, offering valuable guidance for future research in MLLM development.

Summary

AI-Generated Summary

PDF573November 13, 2024