MAmmoTH-VL: 규모에 맞게 지시 조정을 통해 다중 모달 추론 유도
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale
December 6, 2024
저자: Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, Xiang Yue
cs.AI
초록
오픈 소스 다중 모달 대형 언어 모델(MLLMs)은 다양한 다중 모달 작업에서 상당한 잠재력을 보여주었습니다. 그러나 그들의 추론 능력은 기존의 지시 튜닝 데이터셋에 의해 제한되어 있습니다. 이 데이터셋은 주로 VQA, AI2D, ChartQA와 같은 학술 데이터셋에서 재활용되었는데, 이러한 데이터셋은 단순한 작업을 대상으로 하며 중간 근거 없이 구문 수준의 답변만을 제공합니다. 이러한 도전에 대처하기 위해, 우리는 CoT 추론을 유도하기 위해 풍부한 중간 근거를 갖춘 대규모 다중 모달 지시 튜닝 데이터셋을 구축하는 확장 가능하고 비용 효율적인 방법을 소개합니다. 우리는 오픈 모델만을 사용하여, 다양하고 추론 집중적인 작업을 다루기 위해 상세하고 충실한 근거를 갖춘 1200만 개의 지시-응답 쌍을 포함하는 데이터셋을 생성합니다. 실험 결과, 이 데이터셋에서 MLLMs를 훈련시키면 추론 능력이 크게 향상되어 MathVerse(+8.1%), MMMU-Pro(+7%), MuirBench(+13.3%)와 같은 벤치마크에서 최첨단 성능을 달성합니다. 또한, 모델은 비추론 기반 벤치마크에서 최대 4%까지 주목할만한 개선을 보여줍니다. 제거 연구는 데이터셋 구축 과정에서 재작성과 자가 필터링과 같은 주요 구성 요소의 중요성을 강조합니다.
English
Open-source multimodal large language models (MLLMs) have shown significant
potential in a broad range of multimodal tasks. However, their reasoning
capabilities remain constrained by existing instruction-tuning datasets, which
were predominately repurposed from academic datasets such as VQA, AI2D, and
ChartQA. These datasets target simplistic tasks, and only provide phrase-level
answers without any intermediate rationales. To address these challenges, we
introduce a scalable and cost-effective method to construct a large-scale
multimodal instruction-tuning dataset with rich intermediate rationales
designed to elicit CoT reasoning. Using only open models, we create a dataset
containing 12M instruction-response pairs to cover diverse, reasoning-intensive
tasks with detailed and faithful rationales. Experiments demonstrate that
training MLLMs on this dataset significantly improves reasoning capabilities,
achieving state-of-the-art performance on benchmarks such as MathVerse (+8.1%),
MMMU-Pro (+7%), and MuirBench (+13.3%). Additionally, the model demonstrates
notable improvements of up to 4% on non-reasoning-based benchmarks. Ablation
studies further highlight the importance of key components, such as rewriting
and self-filtering, in the dataset construction process.Summary
AI-Generated Summary