다중 모달 대형 언어 모델에서 시각적 질문 분해
Visual Question Decomposition on Multimodal Large Language Models
September 28, 2024
저자: Haowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu
cs.AI
초록
질문 분해는 복잡한 질문에 대한 대답을 유도하기 위한 효과적인 전략으로 등장했습니다. 그러나 기존 방법은 주로 단일 모달 언어 모델에 초점을 맞추고 있으며, 다중 모달 대형 언어 모델(MLLMs)의 질문 분해 능력은 아직 탐구되지 않았습니다. 이 논문은 MLLMs에서 시각적인 질문 분해를 탐구합니다. 구체적으로, 우리는 분해된 하위 질문의 품질을 평가하기 위한 데이터셋과 여러 평가 기준을 포함한 체계적인 평가 프레임워크를 소개하며, 기존 MLLMs가 고품질 하위 질문을 생성하는 데 어려움을 겪는다는 것을 밝혀냅니다. 이 한계를 극복하기 위해, 우리는 모델의 질문 분해 능력을 향상시키기 위한 특정한 파인튜닝 데이터셋인 DecoVQA+를 제안합니다. 적절한 선택적 분해를 수행할 수 있도록 모델을 지원하기 위해 효율적인 파인튜닝 파이프라인을 제안합니다. 파인튜닝 파이프라인은 우리가 제안한 데이터셋과 선택적 분해를 위한 훈련 목표로 구성됩니다. 파인튜닝된 MLLMs는 하위 질문의 품질과 선택적 질문 분해 정책에서 상당한 향상을 보여주며, VQA 벤치마크 데이터셋에서 선택적 분해로 더 높은 정확도를 달성합니다.
English
Question decomposition has emerged as an effective strategy for prompting
Large Language Models (LLMs) to answer complex questions. However, while
existing methods primarily focus on unimodal language models, the question
decomposition capability of Multimodal Large Language Models (MLLMs) has yet to
be explored. To this end, this paper explores visual question decomposition on
MLLMs. Specifically, we introduce a systematic evaluation framework including a
dataset and several evaluation criteria to assess the quality of the decomposed
sub-questions, revealing that existing MLLMs struggle to produce high-quality
sub-questions. To address this limitation, we propose a specific finetuning
dataset, DecoVQA+, for enhancing the model's question decomposition capability.
Aiming at enabling models to perform appropriate selective decomposition, we
propose an efficient finetuning pipeline. The finetuning pipeline consists of
our proposed dataset and a training objective for selective decomposition.
Finetuned MLLMs demonstrate significant improvements in the quality of
sub-questions and the policy of selective question decomposition. Additionally,
the models also achieve higher accuracy with selective decomposition on VQA
benchmark datasets.Summary
AI-Generated Summary