LoRA - Kontextualisierung der Anpassung großer multimodaler Modelle für das Verständnis langer Dokumente
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding
November 2, 2024
Autoren: Jian Chen, Ruiyi Zhang, Yufan Zhou, Tong Yu, Franck Dernoncourt, Jiuxiang Gu, Ryan A. Rossi, Changyou Chen, Tong Sun
cs.AI
Zusammenfassung
Große multimodale Modelle (LMMs) haben kürzlich große Fortschritte bei der Text-Bild-Verständnis gezeigt, kämpfen jedoch immer noch mit komplexen, mehrseitigen, visuell reichen Dokumenten. Traditionelle Methoden, die Dokumentenparser für abrufgesteuerte Generierung verwenden, leiden unter Leistungs- und Effizienzeinschränkungen, während das direkte Präsentieren aller Seiten an LMMs zu Ineffizienzen führt, insbesondere bei längeren Dokumenten. In dieser Arbeit präsentieren wir ein neuartiges Framework namens LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), das die Fähigkeiten eines jeden LMM erweitert, um das Verständnis von langen Dokumenten zu unterstützen. Wir zeigen, dass LMMs effektiv als multimodale Abrufer dienen können, die relevante Seiten abrufen, um Benutzerfragen basierend auf diesen Seiten zu beantworten. LoCAL wird mit zwei spezifischen LMM-Adaptern implementiert: einem für die Seitenabruf und einem für die Beantwortung von Fragen. Empirische Ergebnisse zeigen eine Leistung auf dem neuesten Stand der Technik in öffentlichen Benchmarks und demonstrieren die Wirksamkeit von LoCAL.
English
Large multimodal models (LMMs) have recently shown great progress in
text-rich image understanding, yet they still struggle with complex,
multi-page, visually-rich documents. Traditional methods using document parsers
for retrieval-augmented generation suffer from performance and efficiency
limitations, while directly presenting all pages to LMMs leads to
inefficiencies, especially with lengthy documents. In this work, we present a
novel framework named LoRA-Contextualizing Adaptation of Large multimodal
models (LoCAL), which broadens the capabilities of any LMM to support
long-document understanding. We demonstrate that LMMs can effectively serve as
multimodal retrievers, fetching relevant pages to answer user questions based
on these pages. LoCAL is implemented with two specific LMM adapters: one for
evidence page retrieval and another for question answering. Empirical results
show state-of-the-art performance on public benchmarks, demonstrating the
effectiveness of LoCAL.Summary
AI-Generated Summary