2.5 Anni in Classe: Un Libro di Testo Multimodale per il Preallenamento Visione-Linguaggio
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining
January 1, 2025
Autori: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing
cs.AI
Abstract
Rispetto ai dati di coppie immagine-testo, i corpora interlacciati consentono ai Modelli Visione-Linguaggio (VLM) di comprendere il mondo in modo più naturale come gli esseri umani. Tuttavia, tali dataset esistenti sono raccolti da pagine web, affrontando sfide come bassa densità di conoscenza, relazioni lasche tra immagine e testo e scarsa coerenza logica tra le immagini. D'altra parte, Internet ospita vasti video didattici (ad esempio, corsi di geometria online) ampiamente utilizzati dagli umani per apprendere materie fondamentali, eppure queste preziose risorse rimangono poco esplorate nell'addestramento dei VLM. In questo articolo, presentiamo un corpus multimodale di alta qualità basato su libri di testo con una conoscenza fondamentale più ricca per il preaddestramento dei VLM. Raccoglie oltre 2,5 anni di video didattici, per un totale di 22.000 ore di lezione. Utilizziamo inizialmente una tassonomia proposta da un LLM per raccogliere sistematicamente video didattici. Successivamente estraiamo e raffiniamo progressivamente la conoscenza visiva (frame chiave), audio (ASR) e testuale (OCR) dai video, e organizziamo come un corpus interlacciato immagine-testo in base all'ordine temporale. Rispetto ai suoi simili, il nostro libro di testo incentrato sui video offre un contesto più coerente, una conoscenza più ricca e una migliore allineamento tra immagine e testo. Gli esperimenti ne dimostrano la superba performance di preaddestramento, in particolare nelle attività intensive di conoscenza e ragionamento come ScienceQA e MathVista. Inoltre, i VLM preaddestrati sul nostro libro di testo mostrano un eccezionale livello di consapevolezza del contesto interlacciato, sfruttando indizi visivi e testuali nel loro contesto a pochi scatti per risolvere il compito. Il nostro codice è disponibile su \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
English
Compared to image-text pair data, interleaved corpora enable Vision-Language
Models (VLMs) to understand the world more naturally like humans. However, such
existing datasets are crawled from webpage, facing challenges like low
knowledge density, loose image-text relations, and poor logical coherence
between images. On the other hand, the internet hosts vast instructional videos
(e.g., online geometry courses) that are widely used by humans to learn
foundational subjects, yet these valuable resources remain underexplored in VLM
training. In this paper, we introduce a high-quality multimodal
textbook corpus with richer foundational knowledge for VLM pretraining. It
collects over 2.5 years of instructional videos, totaling 22,000 class hours.
We first use an LLM-proposed taxonomy to systematically gather instructional
videos. Then we progressively extract and refine visual (keyframes), audio
(ASR), and textual knowledge (OCR) from the videos, and organize as an
image-text interleaved corpus based on temporal order. Compared to its
counterparts, our video-centric textbook offers more coherent context, richer
knowledge, and better image-text alignment. Experiments demonstrate its superb
pretraining performance, particularly in knowledge- and reasoning-intensive
tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook
exhibit outstanding interleaved context awareness, leveraging visual and
textual cues in their few-shot context for task solving~Our code are
available at \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.Summary
AI-Generated Summary