ADEM-VL: Adaptieve en Ingebouwde Fusie voor Efficiënte Visie-Taal Afstelling

Samenvatting

Recente ontwikkelingen in multimodale fusie hebben de opmerkelijke successen gezien van visie-taal (VT) modellen, die uitblinken in verschillende multimodale toepassingen zoals beeldbeschrijving en visuele vraagbeantwoording. Echter, het bouwen van VT modellen vereist aanzienlijke hardwarebronnen, waar efficiëntie beperkt wordt door twee belangrijke factoren: de uitgebreide invoerreeks van het taalmodel met visuele kenmerken vereist meer rekenkundige bewerkingen, en een groot aantal extra leerparameters verhoogt de geheugencomplexiteit. Deze uitdagingen beperken aanzienlijk de bredere toepasbaarheid van dergelijke modellen. Om deze kloof te overbruggen, stellen wij ADEM-VL voor, een efficiënte visie-taal methode die VT modellen afstemt op vooraf getrainde grote taalmodellen (TTM's) door het aannemen van een parameterloos kruis-aandachtsmechanisme voor gelijkenismetingen in multimodale fusie. Deze aanpak vereist enkel het inbedden van visuele kenmerken in de taalruimte, waardoor het aantal trainbare parameters aanzienlijk wordt verminderd en zowel de trainingssnelheid als inferentiesnelheden worden versneld. Om de representatie-leren in het fusiemodule te verbeteren, introduceren we een efficiënt multischaal kenmerkengeneratieschema dat slechts een enkele voorwaartse doorgang door de visie-encoder vereist. Bovendien stellen we een adaptief fusieschema voor dat dynamisch minder relevante visuele informatie voor elk teksttoken verwerpt op basis van zijn aandachtscore. Dit zorgt ervoor dat het fusieproces de meest pertinente visuele kenmerken prioriteert. Met experimenten op verschillende taken, waaronder visuele vraagbeantwoording, beeldbeschrijving en instructievolging, tonen we aan dat ons raamwerk bestaande benaderingen overtreft. Specifiek overtreft onze methode bestaande methoden met een gemiddelde nauwkeurigheid van 0,77% op de ScienceQA dataset, met verminderde training en inferentievertraging, waarbij de superioriteit van ons raamwerk wordt aangetoond. De code is beschikbaar op https://github.com/Hao840/ADEM-VL.

English

Recent advancements in multimodal fusion have witnessed the remarkable success of vision-language (VL) models, which excel in various multimodal applications such as image captioning and visual question answering. However, building VL models requires substantial hardware resources, where efficiency is restricted by two key factors: the extended input sequence of the language model with vision features demands more computational operations, and a large number of additional learnable parameters increase memory complexity. These challenges significantly restrict the broader applicability of such models. To bridge this gap, we propose ADEM-VL, an efficient vision-language method that tunes VL models based on pretrained large language models (LLMs) by adopting a parameter-free cross-attention mechanism for similarity measurements in multimodal fusion. This approach only requires embedding vision features into the language space, significantly reducing the number of trainable parameters and accelerating both training and inference speeds. To enhance representation learning in fusion module, we introduce an efficient multiscale feature generation scheme that requires only a single forward pass through the vision encoder. Moreover, we propose an adaptive fusion scheme that dynamically discards less relevant visual information for each text token based on its attention score. This ensures that the fusion process prioritizes the most pertinent visual features. With experiments on various tasks including visual question answering, image captioning, and instruction-following, we demonstrate that our framework outperforms existing approaches. Specifically, our method surpasses existing methods by an average accuracy of 0.77% on ScienceQA dataset, with reduced training and inference latency, demonstrating the superiority of our framework. The code is available at https://github.com/Hao840/ADEM-VL.

ADEM-VL: Adaptieve en Ingebouwde Fusie voor Efficiënte Visie-Taal Afstelling

ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning

Samenvatting

Support