LoRA - Kontextualisierung der Anpassung großer multimodaler Modelle für das Verständnis langer Dokumente

LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding

November 2, 2024
Autoren: Jian Chen, Ruiyi Zhang, Yufan Zhou, Tong Yu, Franck Dernoncourt, Jiuxiang Gu, Ryan A. Rossi, Changyou Chen, Tong Sun
cs.AI

Zusammenfassung

Große multimodale Modelle (LMMs) haben kürzlich große Fortschritte bei der Text-Bild-Verständnis gezeigt, kämpfen jedoch immer noch mit komplexen, mehrseitigen, visuell reichen Dokumenten. Traditionelle Methoden, die Dokumentenparser für abrufgesteuerte Generierung verwenden, leiden unter Leistungs- und Effizienzeinschränkungen, während das direkte Präsentieren aller Seiten an LMMs zu Ineffizienzen führt, insbesondere bei längeren Dokumenten. In dieser Arbeit präsentieren wir ein neuartiges Framework namens LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), das die Fähigkeiten eines jeden LMM erweitert, um das Verständnis von langen Dokumenten zu unterstützen. Wir zeigen, dass LMMs effektiv als multimodale Abrufer dienen können, die relevante Seiten abrufen, um Benutzerfragen basierend auf diesen Seiten zu beantworten. LoCAL wird mit zwei spezifischen LMM-Adaptern implementiert: einem für die Seitenabruf und einem für die Beantwortung von Fragen. Empirische Ergebnisse zeigen eine Leistung auf dem neuesten Stand der Technik in öffentlichen Benchmarks und demonstrieren die Wirksamkeit von LoCAL.
English
Large multimodal models (LMMs) have recently shown great progress in text-rich image understanding, yet they still struggle with complex, multi-page, visually-rich documents. Traditional methods using document parsers for retrieval-augmented generation suffer from performance and efficiency limitations, while directly presenting all pages to LMMs leads to inefficiencies, especially with lengthy documents. In this work, we present a novel framework named LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), which broadens the capabilities of any LMM to support long-document understanding. We demonstrate that LMMs can effectively serve as multimodal retrievers, fetching relevant pages to answer user questions based on these pages. LoCAL is implemented with two specific LMM adapters: one for evidence page retrieval and another for question answering. Empirical results show state-of-the-art performance on public benchmarks, demonstrating the effectiveness of LoCAL.

Summary

AI-Generated Summary

PDF42November 13, 2024