오픈 소스 다중 모달 모델의 성능 경계 확장: 모델, 데이터 및 테스트 시간 스케일링을 통해
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
December 6, 2024
저자: Zhe Chen, Weiyun Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Erfei Cui, Jinguo Zhu, Shenglong Ye, Hao Tian, Zhaoyang Liu, Lixin Gu, Xuehui Wang, Qingyun Li, Yimin Ren, Zixuan Chen, Jiapeng Luo, Jiahao Wang, Tan Jiang, Bo Wang, Conghui He, Botian Shi, Xingcheng Zhang, Han Lv, Yi Wang, Wenqi Shao, Pei Chu, Zhongying Tu, Tong He, Zhiyong Wu, Huipeng Deng, Jiaye Ge, Kai Chen, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI
초록
우리는 InternVL 2.0을 기반으로 한 핵심 모델 구조를 유지하면서 교육 및 테스트 전략과 데이터 품질을 크게 향상시킨 첨단 다중 모달 대형 언어 모델 (MLLM) 시리즈인 InternVL 2.5를 소개합니다. 본 연구에서는 모델 확장과 성능 사이의 관계에 대해 탐구하며, 시각 인코더, 언어 모델, 데이터셋 크기 및 테스트 시 구성에서 성능 트렌드를 체계적으로 탐색합니다. 다중 학문적 추론, 문서 이해, 다중 이미지/비디오 이해, 현실 이해, 다중 모달 환각 감지, 시각 기준, 다국어 능력 및 순수 언어 처리를 포함한 다양한 벤치마크에서의 포괄적인 평가를 통해 InternVL 2.5는 GPT-4o 및 Claude-3.5-Sonnet과 같은 주요 상용 모델과 경쟁력 있는 성능을 보여줍니다. 특히, 우리 모델은 MMMU 벤치마크에서 70%를 넘어서는 첫 번째 오픈 소스 MLLM으로, Chain-of-Thought (CoT) 추론을 통해 3.7포인트 향상을 달성하고 테스트 시 확장에 대한 강력한 잠재력을 보여줍니다. 이 모델이 다중 모달 AI 시스템을 개발하고 적용하는 새로운 기준을 설정함으로써 오픈 소스 커뮤니티에 기여할 것을 희망합니다. HuggingFace 데모는 https://huggingface.co/spaces/OpenGVLab/InternVL에서 확인하실 수 있습니다.
English
We introduce InternVL 2.5, an advanced multimodal large language model (MLLM)
series that builds upon InternVL 2.0, maintaining its core model architecture
while introducing significant enhancements in training and testing strategies
as well as data quality. In this work, we delve into the relationship between
model scaling and performance, systematically exploring the performance trends
in vision encoders, language models, dataset sizes, and test-time
configurations. Through extensive evaluations on a wide range of benchmarks,
including multi-discipline reasoning, document understanding, multi-image /
video understanding, real-world comprehension, multimodal hallucination
detection, visual grounding, multilingual capabilities, and pure language
processing, InternVL 2.5 exhibits competitive performance, rivaling leading
commercial models such as GPT-4o and Claude-3.5-Sonnet. Notably, our model is
the first open-source MLLMs to surpass 70% on the MMMU benchmark, achieving a
3.7-point improvement through Chain-of-Thought (CoT) reasoning and showcasing
strong potential for test-time scaling. We hope this model contributes to the
open-source community by setting new standards for developing and applying
multimodal AI systems. HuggingFace demo see
https://huggingface.co/spaces/OpenGVLab/InternVLSummary
AI-Generated Summary