OLA-VLM: 보조 임베딩 증류를 활용하여 다중 모달 LLMs에서 시각 지각 향상
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation
December 12, 2024
저자: Jitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang
cs.AI
초록
현대 MLLM을 개발하는 표준 방법은 시각 인코더(s)에서 특징을 LLM에 공급하고 자연어 감독으로 훈련하는 것입니다. 본 연구에서는 중간 LLM 표현을 시각적 관점(목적)을 통해 최적화할 수 있는 과제를 제시합니다. 즉, 오로지 자연어 감독은 MLLM의 시각 이해 능력에 있어서 최적이 아닙니다. 이를 위해 우리는 OLA-VLM을 제안합니다. 이는 타겟 시각적 표현 집합으로부터 LLM의 숨겨진 표현에 지식을 증류하는 첫 번째 방법입니다. 우선, MLLM의 사전 훈련 단계에서 목표를 시각적 임베딩 예측과 다음 텍스트 토큰 예측의 결합 최적화로 공식화합니다. 둘째, 우리는 오로지 자연어 감독으로 훈련된 MLLM을 조사하고 이러한 모델 내의 시각적 표현의 품질과 그들의 하류 성능 사이에 긍정적 상관 관계를 확인합니다. 또한, OLA-VLM을 조사한 결과, 임베딩 최적화로 표현 품질이 향상되었음을 관찰합니다. 셋째, 우리의 OLA-VLM이 단일 및 다중 인코더 기준선을 능가하며, 해당 기능을 명시적으로 LLM에 해당 특징을 공급하는 것보다 우리 방법의 우월성을 입증합니다. 특히, OLA-VLM은 다양한 벤치마크에서 최대 2.5%의 평균 마진으로 성능을 향상시키며, CV-Bench의 Depth 작업에서 8.7%의 주목할 만한 개선을 보입니다. 우리의 코드는 https://github.com/SHI-Labs/OLA-VLM 에서 오픈 소스로 제공됩니다.
English
The standard practice for developing contemporary MLLMs is to feed features
from vision encoder(s) into the LLM and train with natural language
supervision. In this work, we posit an overlooked opportunity to optimize the
intermediate LLM representations through a vision perspective (objective),
i.e., solely natural language supervision is sub-optimal for the MLLM's visual
understanding ability. To that end, we propose OLA-VLM, the first approach
distilling knowledge into the LLM's hidden representations from a set of target
visual representations. Firstly, we formulate the objective during the
pretraining stage in MLLMs as a coupled optimization of predictive visual
embedding and next text-token prediction. Secondly, we investigate MLLMs
trained solely with natural language supervision and identify a positive
correlation between the quality of visual representations within these models
and their downstream performance. Moreover, upon probing our OLA-VLM, we
observe improved representation quality owing to the embedding optimization.
Thirdly, we demonstrate that our OLA-VLM outperforms the single and
multi-encoder baselines, proving our approach's superiority over explicitly
feeding the corresponding features to the LLM. Particularly, OLA-VLM boosts
performance by an average margin of up to 2.5% on various benchmarks, with a
notable improvement of 8.7% on the Depth task in CV-Bench. Our code is
open-sourced at https://github.com/SHI-Labs/OLA-VLM .