LoRA - Contextualisation de l'adaptation des grands modèles multimodaux pour la compréhension de documents longs

LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding

November 2, 2024
Auteurs: Jian Chen, Ruiyi Zhang, Yufan Zhou, Tong Yu, Franck Dernoncourt, Jiuxiang Gu, Ryan A. Rossi, Changyou Chen, Tong Sun
cs.AI

Résumé

Les grands modèles multimodaux (LMMs) ont récemment montré de grands progrès dans la compréhension des images riches en texte, mais ils rencontrent encore des difficultés avec des documents complexes, multi-pages et riches en visuels. Les méthodes traditionnelles utilisant des analyseurs de documents pour la génération augmentée par récupération souffrent de limitations de performance et d'efficacité, tandis que la présentation directe de toutes les pages aux LMMs entraîne des inefficacités, surtout avec des documents longs. Dans ce travail, nous présentons un nouveau cadre nommé LoRA-Adaptation Contextualisée des grands modèles multimodaux (LoCAL), qui élargit les capacités de tout LMM pour prendre en charge la compréhension des longs documents. Nous démontrons que les LMMs peuvent efficacement servir de récupérateurs multimodaux, récupérant les pages pertinentes pour répondre aux questions des utilisateurs basées sur ces pages. LoCAL est implémenté avec deux adaptateurs LMM spécifiques : un pour la récupération de pages de preuves et un autre pour la réponse aux questions. Les résultats empiriques montrent des performances de pointe sur des benchmarks publics, démontrant l'efficacité de LoCAL.
English
Large multimodal models (LMMs) have recently shown great progress in text-rich image understanding, yet they still struggle with complex, multi-page, visually-rich documents. Traditional methods using document parsers for retrieval-augmented generation suffer from performance and efficiency limitations, while directly presenting all pages to LMMs leads to inefficiencies, especially with lengthy documents. In this work, we present a novel framework named LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), which broadens the capabilities of any LMM to support long-document understanding. We demonstrate that LMMs can effectively serve as multimodal retrievers, fetching relevant pages to answer user questions based on these pages. LoCAL is implemented with two specific LMM adapters: one for evidence page retrieval and another for question answering. Empirical results show state-of-the-art performance on public benchmarks, demonstrating the effectiveness of LoCAL.

Summary

AI-Generated Summary

PDF42November 13, 2024