Verso il Grounding Visivo del Testo nei Modelli Linguistici Multimodali di Grande Scala
Towards Visual Text Grounding of Multimodal Large Language Model
April 7, 2025
Autori: Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
cs.AI
Abstract
Nonostante l'evoluzione esistente dei Modelli Linguistici Multimodali di Grande Scala (MLLMs), rimane una limitazione non trascurabile nella loro difficoltà con il grounding del testo visivo, specialmente nelle immagini ricche di testo come i documenti. Le immagini di documenti, come moduli scansionati e infografiche, evidenziano sfide critiche a causa dei loro layout complessi e del contenuto testuale. Tuttavia, gli attuali benchmark non affrontano pienamente queste sfide, poiché si concentrano principalmente sul grounding visivo su immagini naturali, piuttosto che su immagini di documenti ricche di testo. Pertanto, per colmare questa lacuna, introduciamo TRIG, un nuovo task con un dataset di istruzioni appositamente progettato per valutare e migliorare le capacità di Text-Rich Image Grounding degli MLLM nel contesto del question-answering su documenti. Nello specifico, proponiamo una pipeline di interazione OCR-LLM-umano per creare 800 coppie domanda-risposta annotate manualmente come benchmark e un ampio set di addestramento di 90$ dati sintetici basati su quattro dataset diversi. Una valutazione completa di vari MLLM sul nostro benchmark proposto rivela sostanziali limitazioni nella loro capacità di grounding su immagini ricche di testo. Inoltre, proponiamo due metodi TRIG semplici ed efficaci basati rispettivamente su general instruction tuning e su un embedding efficiente plug-and-play. Addestrando gli MLLM sul nostro dataset sintetico, si osserva un promettente miglioramento nelle capacità di ragionamento spaziale e di grounding.
English
Despite the existing evolution of Multimodal Large Language Models (MLLMs), a
non-neglectable limitation remains in their struggle with visual text
grounding, especially in text-rich images of documents. Document images, such
as scanned forms and infographics, highlight critical challenges due to their
complex layouts and textual content. However, current benchmarks do not fully
address these challenges, as they mostly focus on visual grounding on natural
images, rather than text-rich document images. Thus, to bridge this gap, we
introduce TRIG, a novel task with a newly designed instruction dataset for
benchmarking and improving the Text-Rich Image Grounding capabilities of MLLMs
in document question-answering. Specifically, we propose an OCR-LLM-human
interaction pipeline to create 800 manually annotated question-answer pairs as
a benchmark and a large-scale training set of 90$ synthetic data based on four
diverse datasets. A comprehensive evaluation of various MLLMs on our proposed
benchmark exposes substantial limitations in their grounding capability on
text-rich images. In addition, we propose two simple and effective TRIG methods
based on general instruction tuning and plug-and-play efficient embedding,
respectively. By finetuning MLLMs on our synthetic dataset, they promisingly
improve spatial reasoning and grounding capabilities.Summary
AI-Generated Summary