AlignVLM: 시각과 언어 잠재 공간을 연결하여 다중 모달 이해를 형성하기
AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding
February 3, 2025
저자: Ahmed Masry, Juan A. Rodriguez, Tianyu Zhang, Suyuchen Wang, Chao Wang, Aarash Feizi, Akshay Kalkunte Suresh, Abhay Puri, Xiangru Jian, Pierre-André Noël, Sathwik Tejaswi Madhusudhan, Marco Pedersoli, Bang Liu, Nicolas Chapados, Yoshua Bengio, Enamul Hoque, Christopher Pal, Issam H. Laradji, David Vazquez, Perouz Taslakian, Spandana Gella, Sai Rajeswar
cs.AI
초록
시각-언어 모델(VLMs)에서 시각적 특징을 언어 임베딩과 일치시키는 것은 중요한 과제입니다. 이러한 모델의 성능은 시각 인코더에 의해 생성된 시각적 특징을 LLM과 공유된 임베딩 공간에 매핑하는 우수한 커넥터에 달려 있으며 의미 유사성을 보존해야 합니다. 기존의 커넥터인 다층 퍼셉트론(MLPs)은 종종 분포 밖이거나 잡음이 많은 입력을 생성하여 모달리티 간의 불일치를 야기합니다. 본 연구에서는 시각-텍스트 정렬 방법인 AlignVLM을 제안합니다. 이 방법은 시각적 특징을 LLM 텍스트 임베딩의 가중 평균에 매핑합니다. 우리의 접근 방식은 LLM에 의해 부여된 언어적 사전 지식을 활용하여 시각적 특징이 LLM이 효과적으로 해석할 수 있는 공간 영역에 매핑되도록 합니다. AlignVLM은 문서 이해 작업에 특히 효과적이며, 여기서 스캔된 문서 이미지를 정확하게 해당 텍스트 내용에 매핑해야 합니다. 우리의 포괄적인 실험 결과는 AlignVLM이 이전 정렬 방법과 비교하여 최고 수준의 성능을 달성한다는 것을 보여줍니다. 우리는 더 나아가 개선된 시각-텍스트 특징 정렬과 잡음에 대한 강건성을 입증하는 추가 분석을 제공합니다.
English
Aligning visual features with language embeddings is a key challenge in
vision-language models (VLMs). The performance of such models hinges on having
a good connector that maps visual features generated by a vision encoder to a
shared embedding space with the LLM while preserving semantic similarity.
Existing connectors, such as multilayer perceptrons (MLPs), often produce
out-of-distribution or noisy inputs, leading to misalignment between the
modalities. In this work, we propose a novel vision-text alignment method,
AlignVLM, that maps visual features to a weighted average of LLM text
embeddings. Our approach leverages the linguistic priors encoded by the LLM to
ensure that visual features are mapped to regions of the space that the LLM can
effectively interpret. AlignVLM is particularly effective for document
understanding tasks, where scanned document images must be accurately mapped to
their textual content. Our extensive experiments show that AlignVLM achieves
state-of-the-art performance compared to prior alignment methods. We provide
further analysis demonstrating improved vision-text feature alignment and
robustness to noise.Summary
AI-Generated Summary