ADEM-VL: Adaptieve en Ingebouwde Fusie voor Efficiënte Visie-Taal Afstelling
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning
October 23, 2024
Auteurs: Zhiwei Hao, Jianyuan Guo, Li Shen, Yong Luo, Han Hu, Yonggang Wen
cs.AI
Samenvatting
Recente ontwikkelingen in multimodale fusie hebben de opmerkelijke successen gezien van visie-taal (VT) modellen, die uitblinken in verschillende multimodale toepassingen zoals beeldbeschrijving en visuele vraagbeantwoording. Echter, het bouwen van VT modellen vereist aanzienlijke hardwarebronnen, waar efficiëntie beperkt wordt door twee belangrijke factoren: de uitgebreide invoerreeks van het taalmodel met visuele kenmerken vereist meer rekenkundige bewerkingen, en een groot aantal extra leerparameters verhoogt de geheugencomplexiteit. Deze uitdagingen beperken aanzienlijk de bredere toepasbaarheid van dergelijke modellen. Om deze kloof te overbruggen, stellen wij ADEM-VL voor, een efficiënte visie-taal methode die VT modellen afstemt op vooraf getrainde grote taalmodellen (TTM's) door het aannemen van een parameterloos kruis-aandachtsmechanisme voor gelijkenismetingen in multimodale fusie. Deze aanpak vereist enkel het inbedden van visuele kenmerken in de taalruimte, waardoor het aantal trainbare parameters aanzienlijk wordt verminderd en zowel de trainingssnelheid als inferentiesnelheden worden versneld. Om de representatie-leren in het fusiemodule te verbeteren, introduceren we een efficiënt multischaal kenmerkengeneratieschema dat slechts een enkele voorwaartse doorgang door de visie-encoder vereist. Bovendien stellen we een adaptief fusieschema voor dat dynamisch minder relevante visuele informatie voor elk teksttoken verwerpt op basis van zijn aandachtscore. Dit zorgt ervoor dat het fusieproces de meest pertinente visuele kenmerken prioriteert. Met experimenten op verschillende taken, waaronder visuele vraagbeantwoording, beeldbeschrijving en instructievolging, tonen we aan dat ons raamwerk bestaande benaderingen overtreft. Specifiek overtreft onze methode bestaande methoden met een gemiddelde nauwkeurigheid van 0,77% op de ScienceQA dataset, met verminderde training en inferentievertraging, waarbij de superioriteit van ons raamwerk wordt aangetoond. De code is beschikbaar op https://github.com/Hao840/ADEM-VL.
English
Recent advancements in multimodal fusion have witnessed the remarkable
success of vision-language (VL) models, which excel in various multimodal
applications such as image captioning and visual question answering. However,
building VL models requires substantial hardware resources, where efficiency is
restricted by two key factors: the extended input sequence of the language
model with vision features demands more computational operations, and a large
number of additional learnable parameters increase memory complexity. These
challenges significantly restrict the broader applicability of such models. To
bridge this gap, we propose ADEM-VL, an efficient vision-language method that
tunes VL models based on pretrained large language models (LLMs) by adopting a
parameter-free cross-attention mechanism for similarity measurements in
multimodal fusion. This approach only requires embedding vision features into
the language space, significantly reducing the number of trainable parameters
and accelerating both training and inference speeds. To enhance representation
learning in fusion module, we introduce an efficient multiscale feature
generation scheme that requires only a single forward pass through the vision
encoder. Moreover, we propose an adaptive fusion scheme that dynamically
discards less relevant visual information for each text token based on its
attention score. This ensures that the fusion process prioritizes the most
pertinent visual features. With experiments on various tasks including visual
question answering, image captioning, and instruction-following, we demonstrate
that our framework outperforms existing approaches. Specifically, our method
surpasses existing methods by an average accuracy of 0.77% on ScienceQA
dataset, with reduced training and inference latency, demonstrating the
superiority of our framework. The code is available at
https://github.com/Hao840/ADEM-VL.Summary
AI-Generated Summary