LoRA - Contestualizzazione dell'Adattamento di Grandi Modelli Multimodali per la Comprensione di Documenti Lunghi
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding
November 2, 2024
Autori: Jian Chen, Ruiyi Zhang, Yufan Zhou, Tong Yu, Franck Dernoncourt, Jiuxiang Gu, Ryan A. Rossi, Changyou Chen, Tong Sun
cs.AI
Abstract
I grandi modelli multimodali (LMM) hanno recentemente mostrato grandi progressi nella comprensione delle immagini ricche di testo, ma faticano ancora con documenti complessi, multi-pagina e ricchi di immagini. I metodi tradizionali che utilizzano parser di documenti per la generazione potenziata da recupero presentano limitazioni in termini di prestazioni ed efficienza, mentre presentare direttamente tutte le pagine ai LMM porta a inefficienze, specialmente con documenti lunghi. In questo lavoro, presentiamo un nuovo framework chiamato LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), che amplia le capacità di qualsiasi LMM per supportare la comprensione di documenti lunghi. Dimostriamo che i LMM possono servire efficacemente come recuperatori multimodali, recuperando pagine rilevanti per rispondere alle domande degli utenti basate su tali pagine. LoCAL è implementato con due adattatori LMM specifici: uno per il recupero delle pagine di prova e un altro per la risposta alle domande. I risultati empirici mostrano prestazioni all'avanguardia su benchmark pubblici, dimostrando l'efficacia di LoCAL.
English
Large multimodal models (LMMs) have recently shown great progress in
text-rich image understanding, yet they still struggle with complex,
multi-page, visually-rich documents. Traditional methods using document parsers
for retrieval-augmented generation suffer from performance and efficiency
limitations, while directly presenting all pages to LMMs leads to
inefficiencies, especially with lengthy documents. In this work, we present a
novel framework named LoRA-Contextualizing Adaptation of Large multimodal
models (LoCAL), which broadens the capabilities of any LMM to support
long-document understanding. We demonstrate that LMMs can effectively serve as
multimodal retrievers, fetching relevant pages to answer user questions based
on these pages. LoCAL is implemented with two specific LMM adapters: one for
evidence page retrieval and another for question answering. Empirical results
show state-of-the-art performance on public benchmarks, demonstrating the
effectiveness of LoCAL.Summary
AI-Generated Summary