ChatPaper.aiChatPaper

Фундаментальная модель для понимания документов на уровне токенов на основе текстовых изображений

A Token-level Text Image Foundation Model for Document Understanding

March 4, 2025
Авторы: Tongkun Guan, Zining Wang, Pei Fu, Zhengtao Guo, Wei Shen, Kai Zhou, Tiezhu Yue, Chen Duan, Hao Sun, Qianyi Jiang, Junfeng Luo, Xiaokang Yang
cs.AI

Аннотация

В последние годы универсальные визуальные базовые модели (VFMs) получают всё большее распространение, особенно в качестве кодировщиков изображений для популярных мультимодальных больших языковых моделей (MLLMs). Однако без семантически детализированного обучения эти модели всё ещё допускают фундаментальные ошибки прогнозирования в контексте задач, связанных с текстом и изображениями, таких как восприятие, понимание и рассуждение с изображениями, содержащими мелкий и плотный текст. Чтобы устранить этот пробел, мы разработали TokenOCR — первую визуальную базовую модель на уровне токенов, специально адаптированную для задач, связанных с текстом и изображениями, и предназначенную для поддержки различных традиционных приложений. Для облегчения предварительного обучения TokenOCR мы также создали высококачественный конвейер генерации данных, который формирует первый набор данных на уровне токенов для текста в изображениях, TokenIT, включающий 20 миллионов изображений и 1,8 миллиарда пар токен-маска. Кроме того, используя эту модель с исключительной способностью интерпретировать изображения как текст, мы легко заменяем предыдущие VFMs на TokenOCR для создания документно-ориентированной MLLM, TokenVL, предназначенной для задач понимания документов на основе вопросно-ответных систем (VQA). Наконец, многочисленные эксперименты подтверждают эффективность TokenOCR и TokenVL. Код, наборы данных и веса будут доступны по адресу https://token-family.github.io/TokenOCR_project.
English
In recent years, general visual foundation models (VFMs) have witnessed increasing adoption, particularly as image encoders for popular multi-modal large language models (MLLMs). However, without semantically fine-grained supervision, these models still encounter fundamental prediction errors in the context of downstream text-image-related tasks, i.e., perception, understanding and reasoning with images containing small and dense texts. To bridge this gap, we develop TokenOCR, the first token-level visual foundation model specifically tailored for text-image-related tasks, designed to support a variety of traditional downstream applications. To facilitate the pretraining of TokenOCR, we also devise a high-quality data production pipeline that constructs the first token-level image text dataset, TokenIT, comprising 20 million images and 1.8 billion token-mask pairs. Furthermore, leveraging this foundation with exceptional image-as-text capability, we seamlessly replace previous VFMs with TokenOCR to construct a document-level MLLM, TokenVL, for VQA-based document understanding tasks. Finally, extensive experiments demonstrate the effectiveness of TokenOCR and TokenVL. Code, datasets, and weights will be available at https://token-family.github.io/TokenOCR_project.

Summary

AI-Generated Summary

PDF43March 5, 2025