ADEM-VL: Fusione Adattiva e Incorporata per un Ottimale Sintonizzazione Visione-Linguaggio
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning
October 23, 2024
Autori: Zhiwei Hao, Jianyuan Guo, Li Shen, Yong Luo, Han Hu, Yonggang Wen
cs.AI
Abstract
Gli sviluppi recenti nella fusione multimodale hanno visto il notevole successo dei modelli visione-linguaggio (VL), che eccellono in varie applicazioni multimodali come la descrizione delle immagini e la risposta alle domande visive. Tuttavia, la costruzione dei modelli VL richiede consistenti risorse hardware, dove l'efficienza è limitata da due fattori chiave: la sequenza di input estesa del modello linguistico con caratteristiche visive richiede più operazioni computazionali, e un gran numero di parametri apprendibili aggiuntivi aumenta la complessità della memoria. Queste sfide limitano significativamente la più ampia applicabilità di tali modelli. Per colmare questa lacuna, proponiamo ADEM-VL, un metodo efficiente visione-linguaggio che ottimizza i modelli VL basandosi su modelli linguistici larghi preaddestrati (LLM) adottando un meccanismo di cross-attenzione senza parametri per le misurazioni di similarità nella fusione multimodale. Questo approccio richiede solo l'incorporazione delle caratteristiche visive nello spazio linguistico, riducendo significativamente il numero di parametri addestrabili e accelerando sia l'addestramento che la velocità di inferenza. Per potenziare l'apprendimento della rappresentazione nel modulo di fusione, introduciamo uno schema efficiente di generazione di caratteristiche multiscale che richiede un'unica passata attraverso l'encoder di visione. Inoltre, proponiamo uno schema di fusione adattiva che scarta dinamicamente le informazioni visive meno rilevanti per ciascun token di testo in base al suo punteggio di attenzione. Ciò garantisce che il processo di fusione dia priorità alle caratteristiche visive più pertinenti. Con esperimenti su varie attività tra cui risposta alle domande visive, descrizione delle immagini e seguimento delle istruzioni, dimostriamo che il nostro framework supera gli approcci esistenti. In particolare, il nostro metodo supera i metodi esistenti di una precisione media del 0,77% sul dataset ScienceQA, con una ridotta latenza di addestramento e inferenza, dimostrando la superiorità del nostro framework. Il codice è disponibile su https://github.com/Hao840/ADEM-VL.
English
Recent advancements in multimodal fusion have witnessed the remarkable
success of vision-language (VL) models, which excel in various multimodal
applications such as image captioning and visual question answering. However,
building VL models requires substantial hardware resources, where efficiency is
restricted by two key factors: the extended input sequence of the language
model with vision features demands more computational operations, and a large
number of additional learnable parameters increase memory complexity. These
challenges significantly restrict the broader applicability of such models. To
bridge this gap, we propose ADEM-VL, an efficient vision-language method that
tunes VL models based on pretrained large language models (LLMs) by adopting a
parameter-free cross-attention mechanism for similarity measurements in
multimodal fusion. This approach only requires embedding vision features into
the language space, significantly reducing the number of trainable parameters
and accelerating both training and inference speeds. To enhance representation
learning in fusion module, we introduce an efficient multiscale feature
generation scheme that requires only a single forward pass through the vision
encoder. Moreover, we propose an adaptive fusion scheme that dynamically
discards less relevant visual information for each text token based on its
attention score. This ensures that the fusion process prioritizes the most
pertinent visual features. With experiments on various tasks including visual
question answering, image captioning, and instruction-following, we demonstrate
that our framework outperforms existing approaches. Specifically, our method
surpasses existing methods by an average accuracy of 0.77% on ScienceQA
dataset, with reduced training and inference latency, demonstrating the
superiority of our framework. The code is available at
https://github.com/Hao840/ADEM-VL.Summary
AI-Generated Summary