ChatPaper.aiChatPaper

InternVL3: Verkenning van geavanceerde trainings- en testtijdrecepten voor open-source multimodale modellen

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

April 14, 2025
Auteurs: Jinguo Zhu, Weiyun Wang, Zhe Chen, Zhaoyang Liu, Shenglong Ye, Lixin Gu, Yuchen Duan, Hao Tian, Weijie Su, Jie Shao, Zhangwei Gao, Erfei Cui, Yue Cao, Yangzhou Liu, Weiye Xu, Hao Li, Jiahao Wang, Han Lv, Dengnian Chen, Songze Li, Yinan He, Tan Jiang, Jiapeng Luo, Yi Wang, Conghui He, Botian Shi, Xingcheng Zhang, Wenqi Shao, Junjun He, Yingtong Xiong, Wenwen Qu, Peng Sun, Penglong Jiao, Lijun Wu, Kaipeng Zhang, Huipeng Deng, Jiaye Ge, Kai Chen, Limin Wang, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI

Samenvatting

We introduceren InternVL3, een belangrijke vooruitgang in de InternVL-serie die een native multimodale voorafgaande trainingsparadigma introduceert. In plaats van een tekst-gebaseerd groot taalmodel (LLM) aan te passen naar een multimodaal groot taalmodel (MLLM) dat visuele invoer ondersteunt, verwerft InternVL3 zowel multimodale als linguïstische capaciteiten gezamenlijk vanuit diverse multimodale data en pure-tekst corpora tijdens een enkele voorafgaande trainingsfase. Dit geïntegreerde trainingsparadigma lost effectief de complexiteiten en uitlijningsuitdagingen op die vaak worden aangetroffen in conventionele achteraf-trainingspijplijnen voor MLLMs. Om de prestaties en schaalbaarheid verder te verbeteren, integreert InternVL3 variabele visuele positiecodering (V2PE) om uitgebreide multimodale contexten te ondersteunen, maakt het gebruik van geavanceerde post-trainings technieken zoals begeleid fijn afstemmen (SFT) en gemengde voorkeursoptimalisatie (MPO), en neemt het testtijd-schaalstrategieën aan naast een geoptimaliseerde trainingsinfrastructuur. Uitgebreide empirische evaluaties tonen aan dat InternVL3 superieure prestaties levert over een breed scala aan multimodale taken. In het bijzonder behaalt InternVL3-78B een score van 72.2 op de MMMU-benchmark, waarmee het een nieuwe state-of-the-art vestigt onder open-source MLLMs. De capaciteiten blijven zeer concurrerend met toonaangevende propriëtaire modellen, waaronder ChatGPT-4o, Claude 3.5 Sonnet en Gemini 2.5 Pro, terwijl het ook sterke pure-taalvaardigheden behoudt. In lijn met de principes van open wetenschap, zullen we zowel de trainingsdata als de modelgewichten openbaar beschikbaar stellen om verder onderzoek en ontwikkeling in de volgende generatie MLLMs te bevorderen.
English
We introduce InternVL3, a significant advancement in the InternVL series featuring a native multimodal pre-training paradigm. Rather than adapting a text-only large language model (LLM) into a multimodal large language model (MLLM) that supports visual inputs, InternVL3 jointly acquires multimodal and linguistic capabilities from both diverse multimodal data and pure-text corpora during a single pre-training stage. This unified training paradigm effectively addresses the complexities and alignment challenges commonly encountered in conventional post-hoc training pipelines for MLLMs. To further improve performance and scalability, InternVL3 incorporates variable visual position encoding (V2PE) to support extended multimodal contexts, employs advanced post-training techniques such as supervised fine-tuning (SFT) and mixed preference optimization (MPO), and adopts test-time scaling strategies alongside an optimized training infrastructure. Extensive empirical evaluations demonstrate that InternVL3 delivers superior performance across a wide range of multi-modal tasks. In particular, InternVL3-78B achieves a score of 72.2 on the MMMU benchmark, setting a new state-of-the-art among open-source MLLMs. Its capabilities remain highly competitive with leading proprietary models, including ChatGPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro, while also maintaining strong pure-language proficiency. In pursuit of open-science principles, we will publicly release both the training data and model weights to foster further research and development in next-generation MLLMs.

Summary

AI-Generated Summary

PDF2498April 15, 2025