긴 문서 이해를 위한 대규모 다중 모달 모델의 맥락화 적응

LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding

November 2, 2024
저자: Jian Chen, Ruiyi Zhang, Yufan Zhou, Tong Yu, Franck Dernoncourt, Jiuxiang Gu, Ryan A. Rossi, Changyou Chen, Tong Sun
cs.AI

초록

최근 대규모 다중 모달 모델(LMMs)은 텍스트-풍부 이미지 이해 분야에서 큰 진전을 보여주었지만, 여전히 복잡하고 멀티페이지이며 시각적으로 풍부한 문서에 어려움을 겪고 있습니다. 문서 파서를 사용한 전통적인 방법은 검색 증강 생성에 있어서 성능과 효율성 제한을 겪지만, 모든 페이지를 LMMs에 직접 제시하는 것은 특히 긴 문서의 경우 비효율적입니다. 본 연구에서는 LoRA-대규모 다중 모달 모델의 맥락화 적응(LoCAL)이라는 새로운 프레임워크를 제시합니다. 이 프레임워크는 어떤 LMM도 장문서 이해를 지원할 수 있도록 확장합니다. 우리는 LMMs가 다중 모달 검색기 역할을 효과적으로 수행할 수 있음을 입증하고, 사용자 질문에 대답하기 위해 관련 페이지를 검색하는 LoCAL을 소개합니다. LoCAL은 두 가지 특정 LMM 어댑터로 구현되어 있습니다: 증거 페이지 검색을 위한 하나와 질문에 대한 답변을 위한 다른 하나입니다. 경험적 결과는 공개 벤치마크에서 최첨단 성능을 보여주며, LoCAL의 효과를 입증합니다.
English
Large multimodal models (LMMs) have recently shown great progress in text-rich image understanding, yet they still struggle with complex, multi-page, visually-rich documents. Traditional methods using document parsers for retrieval-augmented generation suffer from performance and efficiency limitations, while directly presenting all pages to LMMs leads to inefficiencies, especially with lengthy documents. In this work, we present a novel framework named LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), which broadens the capabilities of any LMM to support long-document understanding. We demonstrate that LMMs can effectively serve as multimodal retrievers, fetching relevant pages to answer user questions based on these pages. LoCAL is implemented with two specific LMM adapters: one for evidence page retrieval and another for question answering. Empirical results show state-of-the-art performance on public benchmarks, demonstrating the effectiveness of LoCAL.

Summary

AI-Generated Summary

PDF42November 13, 2024