LVLMs의 판별적 세밀 조정
Discriminative Fine-tuning of LVLMs
December 5, 2024
저자: Yassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Georgios Tzimiropoulos, Brais Martinez
cs.AI
초록
대조적으로 훈련된 Vision-Language 모델(VLMs)인 CLIP과 같은 모델은 판별적 비전-언어 표현 학습의 사실상의 접근 방식이 되었습니다. 그러나 이러한 모델들은 언어 이해 능력이 제한되어 종종 "단어 가방" 행동을 보입니다. 동시에 비전 인코더와 LLMs를 결합한 대형 Vision-Language 모델(LVLMs)은 자세한 비전-언어 추론이 가능하다는 것이 입증되었지만, 자기 회귀적인 성격으로 인해 판별적 작업에는 적합하지 않습니다.
본 연구에서는 "양쪽의 장점을 결합"하는 것을 제안합니다: LVLMs의 판별적 세밀 조정을 위한 새로운 훈련 방법을 제시하여 강력한 판별적 및 구성적 능력을 얻습니다. 본질적으로, 우리의 방법은 생성적 LVLM을 판별적으로 변환하여 강력한 이미지-텍스트 구별 능력과 향상된 언어 이해력을 발휘합니다.
우리의 기여는 다음과 같습니다: (1) 이미지-텍스트 쌍의 가변 길이와 세분성을 활용하여 모델을 훈련시키는 대조적 및 다음 토큰 예측 손실을 모두 사용하는 신중히 설계된 훈련/최적화 프레임워크입니다. 이는 우리의 프레임워크 구성 요소의 필요성을 정당화하는 소거 연구와 함께 제시됩니다. (2) 소프트 프롬프팅과 LoRA 어댑터의 조합을 사용하는 매개 효율적인 적응 방법입니다. (3) 유사한 크기의 최첨단 CLIP와 같은 모델에 비해 상당한 향상을 이끌어내며, 표준 이미지-텍스트 검색 벤치마크와 구성성에서 주목할만한 이득을 제공합니다.
English
Contrastively-trained Vision-Language Models (VLMs) like CLIP have become the
de facto approach for discriminative vision-language representation learning.
However, these models have limited language understanding, often exhibiting a
"bag of words" behavior. At the same time, Large Vision-Language Models
(LVLMs), which combine vision encoders with LLMs, have been shown capable of
detailed vision-language reasoning, yet their autoregressive nature renders
them less suitable for discriminative tasks.
In this work, we propose to combine "the best of both worlds": a new training
approach for discriminative fine-tuning of LVLMs that results in strong
discriminative and compositional capabilities. Essentially, our approach
converts a generative LVLM into a discriminative one, unlocking its capability
for powerful image-text discrimination combined with enhanced language
understanding.
Our contributions include: (1) A carefully designed training/optimization
framework that utilizes image-text pairs of variable length and granularity for
training the model with both contrastive and next-token prediction losses. This
is accompanied by ablation studies that justify the necessity of our
framework's components. (2) A parameter-efficient adaptation method using a
combination of soft prompting and LoRA adapters. (3) Significant improvements
over state-of-the-art CLIP-like models of similar size, including standard
image-text retrieval benchmarks and notable gains in compositionality.Summary
AI-Generated Summary