MAmmoTH-VL: Elicitazione del Ragionamento Multimodale con l'Accordatura delle Istruzioni su Larga Scala
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale
December 6, 2024
Autori: Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, Xiang Yue
cs.AI
Abstract
I modelli linguistici multimodali su larga scala open-source (MLLMs) hanno mostrato un significativo potenziale in una vasta gamma di compiti multimodali. Tuttavia, le loro capacità di ragionamento rimangono vincolate dai dataset di addestramento esistenti, che sono principalmente adattati da dataset accademici come VQA, AI2D e ChartQA. Questi dataset si concentrano su compiti semplicistici e forniscono solo risposte a livello di frasi senza fornire ragionamenti intermedi. Per affrontare queste sfide, introduciamo un metodo scalabile ed economicamente vantaggioso per costruire un dataset di addestramento multimodale su larga scala con ricchi ragionamenti intermedi progettati per suscitare il ragionamento CoT. Utilizzando solo modelli open, creiamo un dataset contenente 12 milioni di coppie istruzione-risposta per coprire una varietà di compiti intensivi di ragionamento con ragionamenti dettagliati e fedeli. Gli esperimenti dimostrano che addestrare MLLMs su questo dataset migliora significativamente le capacità di ragionamento, raggiungendo prestazioni all'avanguardia su benchmark come MathVerse (+8,1%), MMMU-Pro (+7%) e MuirBench (+13,3%). Inoltre, il modello mostra miglioramenti significativi fino al 4% su benchmark non basati sul ragionamento. Studi di ablation evidenziano ulteriormente l'importanza di componenti chiave, come la riscrittura e l'autofiltraggio, nel processo di costruzione del dataset.
English
Open-source multimodal large language models (MLLMs) have shown significant
potential in a broad range of multimodal tasks. However, their reasoning
capabilities remain constrained by existing instruction-tuning datasets, which
were predominately repurposed from academic datasets such as VQA, AI2D, and
ChartQA. These datasets target simplistic tasks, and only provide phrase-level
answers without any intermediate rationales. To address these challenges, we
introduce a scalable and cost-effective method to construct a large-scale
multimodal instruction-tuning dataset with rich intermediate rationales
designed to elicit CoT reasoning. Using only open models, we create a dataset
containing 12M instruction-response pairs to cover diverse, reasoning-intensive
tasks with detailed and faithful rationales. Experiments demonstrate that
training MLLMs on this dataset significantly improves reasoning capabilities,
achieving state-of-the-art performance on benchmarks such as MathVerse (+8.1%),
MMMU-Pro (+7%), and MuirBench (+13.3%). Additionally, the model demonstrates
notable improvements of up to 4% on non-reasoning-based benchmarks. Ablation
studies further highlight the importance of key components, such as rewriting
and self-filtering, in the dataset construction process.Summary
AI-Generated Summary