InfiMM-WebMath-40B: 향상된 수학 추론을 위한 멀티모달 사전 훈련 발전
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
September 19, 2024
저자: Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
cs.AI
초록
대규모 고품질 데이터셋에서 사전 훈련은 특히 수학과 같은 전문 분야에서 Large Language Models (LLMs)의 추론 능력을 향상시키는 데 중요합니다. 인식된 중요성에도 불구하고, 현재 Multimodal LLMs (MLLMs) 분야는 수학적 추론을 위해 특별히 설계된 포괄적인 오픈 소스 사전 훈련 데이터셋이 부족합니다. 이러한 공백을 해결하기 위해, 우리는 InfiMM-WebMath-40B를 소개합니다. 이는 교차되는 이미지-텍스트 문서의 고품질 데이터셋으로, CommonCrawl로부터 세심하게 추출하고 정제된 2,400만 개의 웹 페이지, 8500만 개의 관련 이미지 URL 및 400억 개의 텍스트 토큰으로 구성되어 있습니다. 우리는 데이터 수집 및 처리 파이프라인에 대한 자세한 개요를 제공합니다. InfiMM-WebMath-40B의 견고성을 증명하기 위해, 우리는 텍스트만과 멀티모달 설정에서 평가를 실시했습니다. 우리의 텍스트만 벤치마크 평가는 400억 개의 토큰만을 활용하더라도 우리의 1.3B 모델의 성능을 크게 향상시키며, 동일한 모델 크기를 사용하는 DeepSeekMath-1.3B와 유사한 결과를 제공함을 보여줍니다. 그러나 우리의 멀티모달 수학 사전 훈련 데이터셋을 도입함으로써, 우리 모델은 MathVerse 및 We-Math와 같은 멀티모달 수학 벤치마크에서 오픈 소스 모델 중 최신 기술을 세우고 있습니다. 우리는 데이터를 https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B에서 공개합니다.
English
Pre-training on large-scale, high-quality datasets is crucial for enhancing
the reasoning capabilities of Large Language Models (LLMs), especially in
specialized domains such as mathematics. Despite the recognized importance, the
Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source
pre-training dataset specifically designed for mathematical reasoning. To
address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of
interleaved image-text documents. It comprises 24 million web pages, 85 million
associated image URLs, and 40 billion text tokens, all meticulously extracted
and filtered from CommonCrawl. We provide a detailed overview of our data
collection and processing pipeline. To demonstrate the robustness of
InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal
settings. Our evaluations on text-only benchmarks show that, despite utilizing
only 40 billion tokens, our dataset significantly enhances the performance of
our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses
120 billion tokens for the same model size. Nevertheless, with the introduction
of our multi-modal math pre-training dataset, our models set a new
state-of-the-art among open-source models on multi-modal math benchmarks such
as MathVerse and We-Math. We release our data at
https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.Summary
AI-Generated Summary