2,5 Anos em Sala de Aula: Um Livro Didático Multimodal para Pré-treinamento Visão-Linguagem

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

January 1, 2025
Autores: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing
cs.AI

Resumo

Comparado aos dados de pares de imagem-texto, corpora intercalados permitem que Modelos de Visão-Linguagem (VLMs) compreendam o mundo de forma mais natural, como os humanos. No entanto, tais conjuntos de dados existentes são coletados de páginas da web, enfrentando desafios como baixa densidade de conhecimento, relações frouxas entre imagem e texto e fraca coerência lógica entre as imagens. Por outro lado, a internet hospeda vastos vídeos instrutivos (por exemplo, cursos de geometria online) amplamente utilizados pelos humanos para aprender disciplinas fundamentais, no entanto, esses recursos valiosos permanecem pouco explorados no treinamento de VLMs. Neste artigo, apresentamos um corpus multimodal de alta qualidade de livros didáticos com conhecimento fundamental mais rico para pré-treinamento de VLM. Ele coleta mais de 2,5 anos de vídeos instrutivos, totalizando 22.000 horas de aula. Primeiramente, utilizamos uma taxonomia proposta por LLM para coletar sistematicamente vídeos instrutivos. Em seguida, extraímos e refinamos progressivamente o conhecimento visual (keyframes), áudio (ASR) e textual (OCR) dos vídeos, e organizamos como um corpus intercalado de imagem-texto com base na ordem temporal. Em comparação com seus equivalentes, nosso livro didático centrado em vídeo oferece um contexto mais coerente, conhecimento mais rico e melhor alinhamento entre imagem e texto. Experimentos demonstram seu excelente desempenho de pré-treinamento, especialmente em tarefas intensivas em conhecimento e raciocínio, como ScienceQA e MathVista. Além disso, os VLMs pré-treinados em nosso livro demonstram uma notável consciência de contexto intercalado, aproveitando pistas visuais e textuais em seu contexto de poucas amostras para a resolução de tarefas. Nosso código está disponível em \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
English
Compared to image-text pair data, interleaved corpora enable Vision-Language Models (VLMs) to understand the world more naturally like humans. However, such existing datasets are crawled from webpage, facing challenges like low knowledge density, loose image-text relations, and poor logical coherence between images. On the other hand, the internet hosts vast instructional videos (e.g., online geometry courses) that are widely used by humans to learn foundational subjects, yet these valuable resources remain underexplored in VLM training. In this paper, we introduce a high-quality multimodal textbook corpus with richer foundational knowledge for VLM pretraining. It collects over 2.5 years of instructional videos, totaling 22,000 class hours. We first use an LLM-proposed taxonomy to systematically gather instructional videos. Then we progressively extract and refine visual (keyframes), audio (ASR), and textual knowledge (OCR) from the videos, and organize as an image-text interleaved corpus based on temporal order. Compared to its counterparts, our video-centric textbook offers more coherent context, richer knowledge, and better image-text alignment. Experiments demonstrate its superb pretraining performance, particularly in knowledge- and reasoning-intensive tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook exhibit outstanding interleaved context awareness, leveraging visual and textual cues in their few-shot context for task solving~Our code are available at \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.

Summary

AI-Generated Summary

PDF957January 3, 2025