대칭적 시각 대조 최적화: 최소 대조 이미지로 비전-언어 모델 정렬하기
Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images
February 19, 2025
저자: Shengguang Wu, Fan-Yun Sun, Kaiyue Wen, Nick Haber
cs.AI
초록
최근 연구에 따르면, 대형 시각-언어 모델(VLMs)은 이미지 콘텐츠를 소홀히 하고 언어 모델의 사전 지식에 과도하게 의존하는 경향이 있어, 시각적으로 기반한 작업에서 오류와 환각(hallucination) 현상을 일으키는 것으로 나타났습니다. 우리는 이러한 문제가 기존 VLMs가 세밀한 이미지 세부 사항에 정확히 기반한 텍스트를 생성하도록 명시적으로 훈련되지 않았기 때문에 발생한다고 가정합니다. VLM 훈련 중 시각적 피드백을 강화하기 위해, 우리는 중요한 시각적 세부 사항을 포착하고 이를 해당 텍스트 토큰과 정렬하도록 모델을 유도하는 새로운 파인튜닝 목표인 S-VCO(Symmetrical Visual Contrastive Optimization)를 제안합니다. 이러한 세부 정렬을 더욱 촉진하기 위해, 우리는 MVC라는 짝을 이루는 이미지-텍스트 데이터셋을 도입했습니다. 이 데이터셋은 시각적 반사실적 데이터를 자동으로 필터링하고 증강하여, 최소 시각적 대비(Minimal Visual Contrasts)를 포함한 어려운 대조 사례를 모델에 제시하도록 구성되었습니다. 실험 결과, 우리의 방법은 다양한 능력과 도메인을 아우르는 벤치마크에서 VLM 성능을 꾸준히 향상시켰으며, 환각 현상을 최대 22% 감소시키고, 시각 중심 및 일반 작업에서 상당한 성과를 거두었습니다. 특히, 이러한 개선은 시각적 의존도가 높은 벤치마크에서 더욱 두드러졌습니다. 요약하면, S-VCO는 VLM의 시각적 의존 작업 성능을 크게 향상시키면서도 모델의 일반적인 능력을 유지하거나 오히려 개선합니다. 우리는 코드를 https://s-vco.github.io/에서 공개했습니다.
English
Recent studies have shown that Large Vision-Language Models (VLMs) tend to
neglect image content and over-rely on language-model priors, resulting in
errors in visually grounded tasks and hallucinations. We hypothesize that this
issue arises because existing VLMs are not explicitly trained to generate texts
that are accurately grounded in fine-grained image details. To enhance visual
feedback during VLM training, we propose S-VCO (Symmetrical Visual Contrastive
Optimization), a novel finetuning objective that steers the model toward
capturing important visual details and aligning them with corresponding text
tokens. To further facilitate this detailed alignment, we introduce MVC, a
paired image-text dataset built by automatically filtering and augmenting
visual counterfactual data to challenge the model with hard contrastive cases
involving Minimal Visual Contrasts. Experiments show that our method
consistently improves VLM performance across diverse benchmarks covering
various abilities and domains, achieving up to a 22% reduction in
hallucinations, and significant gains in vision-centric and general tasks.
Notably, these improvements become increasingly pronounced in benchmarks with
higher visual dependency. In short, S-VCO offers a significant enhancement of
VLM's visually-dependent task performance while retaining or even improving the
model's general abilities. We opensource our code at https://s-vco.github.io/Summary
AI-Generated Summary