MMCOMPOSITION: 사전 훈련된 시각-언어 모델의 복합성 재방문
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models
October 13, 2024
저자: Hang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, Jiebo Luo
cs.AI
초록
대형 Vision-Language 모델(VLMs)의 출현은 다중 모달 이해를 크게 발전시켰으며, 이미지 및 비디오 캡션, 시각적 질문 응답, 교차 모달 검색을 포함한 다양한 작업에서 시각적 및 텍스트 정보를 더 정교하고 정확하게 통합할 수 있게 했습니다. VLMs의 우수한 능력에도 불구하고, 연구자들은 그들의 합성 능력에 대한 포괄적인 이해를 부족하게 여깁니다. 합성 능력은 알려진 시각적 및 텍스트 구성 요소의 새로운 조합을 이해하고 생성하는 능력을 의미합니다. 이전의 기준은 객체, 관계 및 속성 관점에서 비교적 대략적인 합성 능력 평가만 제공하며, 객체 상호 작용, 계산, 복잡한 구성에 대한 심층적인 추론을 간과합니다. 그러나 합성 능력은 VLMs에 대한 일관된 추론과 이해를 용이하게 하는 중요한 능력입니다. 이 한계를 극복하기 위해, 우리는 VLMs의 합성 능력을 철저하고 정확하게 평가하기 위한 새로운 인간 주석이 달린 MMCOMPOSITION을 제안합니다. 우리의 제안된 기준은 이전 작업들을 보완하는 역할을 합니다. MMCOMPOSITION을 통해, 우리는 주류 VLMs의 합성 능력을 정량화하고 탐구할 수 있습니다. 놀랍게도, 우리는 GPT-4o의 합성 능력이 최고의 오픈 소스 모델보다 우수하다는 것을 발견하고, 그 근본적인 이유를 분석합니다. 우리의 실험적 분석은 VLMs의 미세한 합성적 지각 및 추론의 한계를 밝혀내며, VLM 설계 및 훈련 개선을 위한 개선 영역을 가리킵니다. 자세한 자료는 다음 링크에서 확인할 수 있습니다: https://hanghuacs.github.io/MMComposition/
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal understanding, enabling more sophisticated and accurate integration
of visual and textual information across various tasks, including image and
video captioning, visual question answering, and cross-modal retrieval. Despite
VLMs' superior capabilities, researchers lack a comprehensive understanding of
their compositionality -- the ability to understand and produce novel
combinations of known visual and textual components. Prior benchmarks provide
only a relatively rough compositionality evaluation from the perspectives of
objects, relations, and attributes while neglecting deeper reasoning about
object interactions, counting, and complex compositions. However,
compositionality is a critical ability that facilitates coherent reasoning and
understanding across modalities for VLMs. To address this limitation, we
propose MMCOMPOSITION, a novel human-annotated benchmark for comprehensively
and accurately evaluating VLMs' compositionality. Our proposed benchmark serves
as a complement to these earlier works. With MMCOMPOSITION, we can quantify and
explore the compositionality of the mainstream VLMs. Surprisingly, we find
GPT-4o's compositionality inferior to the best open-source model, and we
analyze the underlying reasons. Our experimental analysis reveals the
limitations of VLMs in fine-grained compositional perception and reasoning, and
points to areas for improvement in VLM design and training. Resources available
at: https://hanghuacs.github.io/MMComposition/Summary
AI-Generated Summary