OLA-VLM: Elevare la Percezione Visiva nei LLM Multimodali con Distillazione di Embedding Ausiliaria
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation
December 12, 2024
Autori: Jitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang
cs.AI
Abstract
La prassi standard per lo sviluppo dei moderni Modelli di Linguaggio Multimodali è quella di fornire le caratteristiche dall'encoder (o dagli encoder) di visione al Modelli di Linguaggio e addestrarlo con supervisione in linguaggio naturale. In questo lavoro, ipotizziamo un'opportunità trascurata per ottimizzare le rappresentazioni intermedie del Modelli di Linguaggio Multimodale attraverso una prospettiva visiva (obiettivo), ovvero la sola supervisione in linguaggio naturale è sub-ottimale per la capacità di comprensione visiva del Modelli di Linguaggio Multimodale. A tal fine, proponiamo OLA-VLM, il primo approccio che distilla conoscenze nelle rappresentazioni nascoste del Modelli di Linguaggio da un insieme di rappresentazioni visive target. In primo luogo, formuliamo l'obiettivo durante la fase di preaddestramento nei Modelli di Linguaggio Multimodali come un'ottimizzazione accoppiata dell'incorporamento visivo predittivo e della successiva previsione del token di testo. In secondo luogo, indaghiamo sui Modelli di Linguaggio Multimodali addestrati esclusivamente con supervisione in linguaggio naturale e identifichiamo una correlazione positiva tra la qualità delle rappresentazioni visive all'interno di questi modelli e le loro prestazioni downstream. Inoltre, sondando il nostro OLA-VLM, osserviamo un miglioramento della qualità della rappresentazione grazie all'ottimizzazione dell'incorporamento. In terzo luogo, dimostriamo che il nostro OLA-VLM supera i baselines con singolo e multi-encoder, dimostrando la superiorità del nostro approccio rispetto all'alimentazione esplicita delle caratteristiche corrispondenti al Modelli di Linguaggio. In particolare, OLA-VLM aumenta le prestazioni di un margine medio fino al 2.5% su vari benchmark, con un notevole miglioramento dell'8.7% sul compito di Profondità in CV-Bench. Il nostro codice è open-source su https://github.com/SHI-Labs/OLA-VLM.
English
The standard practice for developing contemporary MLLMs is to feed features
from vision encoder(s) into the LLM and train with natural language
supervision. In this work, we posit an overlooked opportunity to optimize the
intermediate LLM representations through a vision perspective (objective),
i.e., solely natural language supervision is sub-optimal for the MLLM's visual
understanding ability. To that end, we propose OLA-VLM, the first approach
distilling knowledge into the LLM's hidden representations from a set of target
visual representations. Firstly, we formulate the objective during the
pretraining stage in MLLMs as a coupled optimization of predictive visual
embedding and next text-token prediction. Secondly, we investigate MLLMs
trained solely with natural language supervision and identify a positive
correlation between the quality of visual representations within these models
and their downstream performance. Moreover, upon probing our OLA-VLM, we
observe improved representation quality owing to the embedding optimization.
Thirdly, we demonstrate that our OLA-VLM outperforms the single and
multi-encoder baselines, proving our approach's superiority over explicitly
feeding the corresponding features to the LLM. Particularly, OLA-VLM boosts
performance by an average margin of up to 2.5% on various benchmarks, with a
notable improvement of 8.7% on the Depth task in CV-Bench. Our code is
open-sourced at https://github.com/SHI-Labs/OLA-VLM .Summary
AI-Generated Summary