ChatPaper.aiChatPaper

수업에서 2.5년: 시각-언어에 대한 다중 모달 교재 사전 훈련

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

January 1, 2025
저자: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing
cs.AI

초록

이미지-텍스트 쌍 데이터와 비교했을 때, 교차된 말뭉치는 비전-언어 모델(VLMs)이 인간처럼 세계를 더 자연스럽게 이해할 수 있게 합니다. 그러나 기존 데이터셋은 웹페이지에서 크롤링되어 낮은 지식 밀도, 느슨한 이미지-텍스트 관계, 그리고 이미지 간의 논리적 일관성 부족과 같은 어려움에 직면합니다. 반면, 인터넷에는 인간들이 핵심 주제를 학습하는 데 널리 사용되는 온라인 기하학 수업과 같은 방대한 교육 동영상이 있지만, 이러한 가치 있는 자료들은 VLM 훈련에서 아직 충분히 탐구되지 않았습니다. 본 논문에서는 VLM 사전 훈련을 위한 보다 풍부한 기본 지식을 갖춘 고품질 다중 모달 교과서 말뭉치를 소개합니다. 이는 2.5년 이상의 교육 동영상을 수집하여 총 22,000 수업 시간을 보유하고 있습니다. 먼저 LLM이 제안한 분류법을 사용하여 체계적으로 교육 동영상을 수집합니다. 그런 다음 동영상에서 시각적(키프레임), 오디오(ASR), 텍스트 지식(OCR)을 점진적으로 추출하고 정제하여 시간 순서에 따라 이미지-텍스트 교차된 말뭉치로 구성합니다. 이와 같은 대조 대상과 비교했을 때, 우리의 비디오 중심 교과서는 더 일관된 맥락, 더 풍부한 지식, 그리고 더 나은 이미지-텍스트 정렬을 제공합니다. 실험 결과는 이 교재를 사용한 우수한 사전 훈련 성능을 입증하며, 특히 ScienceQA와 MathVista와 같은 지식과 추론이 필요한 작업에서 뛰어난 성과를 보입니다. 또한, 우리의 교과서에서 사전 훈련된 VLM은 임무 해결을 위해 시각적 및 텍스트 단서를 활용한 교차된 맥락 인식을 높이는 뛰어난 성과를 보입니다. 저희의 코드는 \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}에서 확인하실 수 있습니다.
English
Compared to image-text pair data, interleaved corpora enable Vision-Language Models (VLMs) to understand the world more naturally like humans. However, such existing datasets are crawled from webpage, facing challenges like low knowledge density, loose image-text relations, and poor logical coherence between images. On the other hand, the internet hosts vast instructional videos (e.g., online geometry courses) that are widely used by humans to learn foundational subjects, yet these valuable resources remain underexplored in VLM training. In this paper, we introduce a high-quality multimodal textbook corpus with richer foundational knowledge for VLM pretraining. It collects over 2.5 years of instructional videos, totaling 22,000 class hours. We first use an LLM-proposed taxonomy to systematically gather instructional videos. Then we progressively extract and refine visual (keyframes), audio (ASR), and textual knowledge (OCR) from the videos, and organize as an image-text interleaved corpus based on temporal order. Compared to its counterparts, our video-centric textbook offers more coherent context, richer knowledge, and better image-text alignment. Experiments demonstrate its superb pretraining performance, particularly in knowledge- and reasoning-intensive tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook exhibit outstanding interleaved context awareness, leveraging visual and textual cues in their few-shot context for task solving~Our code are available at \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.

Summary

AI-Generated Summary

PDF997January 3, 2025