MIA-DPO: 대규모 비전-언어 모델을 위한 다중 이미지 증강 직접 선호도 최적화
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
October 23, 2024
저자: Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
초록
시각적 선호도 정렬은 대형 시각-언어 모델(LVLMs)을 사용하여 시각적 입력 사이의 인간 선호를 예측하는 것을 포함합니다. 일반적으로, 선택된/거부된 쌍의 레이블이 지정된 데이터셋을 사용하고 직접 선호도 최적화(DPO)와 같은 최적화 알고리즘을 활용하여 달성됩니다. 기존의 시각적 정렬 방법은 주로 단일 이미지 시나리오를 위해 설계되었으며, 다양한 훈련 데이터의 부족과 선택된/거부된 쌍을 주석 달기 위한 높은 비용으로 인해 다중 이미지 작업의 복잡성을 효과적으로 처리하기 어렵습니다. 우리는 다중 이미지 입력을 효과적으로 처리하는 시각적 선호도 정렬 접근 방식인 Multi-Image Augmented Direct Preference Optimization (MIA-DPO)을 제안합니다. MIA-DPO는 그리드 콜라주나 사진 안 사진 형식으로 배치된 관련 없는 이미지로 단일 이미지 데이터를 확장하여 다양한 다중 이미지 훈련 데이터의 부족을 완화하고, 다중 이미지 데이터 주석에 관련된 비용을 크게 줄입니다. 우리의 관찰 결과, LVLMs의 주의 값이 다른 이미지 간에 상당히 다르다는 것을 보여줍니다. 우리는 주의 값 사용하여 모델이 잘못 집중한 거부 응답을 식별하고 걸러냅니다. 우리의 주의 주의 선택은 (i) 인간 주석, (ii) 추가 데이터, (iii) 외부 모델이나 API에 의존하지 않고 선택된/거부된 쌍을 구성하는 데 사용됩니다. MIA-DPO는 다양한 아키텍처와 호환되며, 다섯 가지 다중 이미지 벤치마크에서 기존 방법을 능가하여 LLaVA-v1.5에서 평균 성능 향상률이 3.0%, 최근 InternLM-XC2.5에서 4.3%를 달성합니다. 또한, MIA-DPO는 모델이 단일 이미지를 이해하는 능력에 미미한 영향을 미칩니다.
English
Visual preference alignment involves training Large Vision-Language Models
(LVLMs) to predict human preferences between visual inputs. This is typically
achieved by using labeled datasets of chosen/rejected pairs and employing
optimization algorithms like direct preference optimization (DPO). Existing
visual alignment methods, primarily designed for single-image scenarios,
struggle to effectively handle the complexity of multi-image tasks due to the
scarcity of diverse training data and the high cost of annotating
chosen/rejected pairs. We present Multi-Image Augmented Direct Preference
Optimization (MIA-DPO), a visual preference alignment approach that effectively
handles multi-image inputs. MIA-DPO mitigates the scarcity of diverse
multi-image training data by extending single-image data with unrelated images
arranged in grid collages or pic-in-pic formats, significantly reducing the
costs associated with multi-image data annotations. Our observation reveals
that attention values of LVLMs vary considerably across different images. We
use attention values to identify and filter out rejected responses the model
may have mistakenly focused on. Our attention-aware selection for constructing
the chosen/rejected pairs without relying on (i) human annotation, (ii) extra
data, and (iii) external models or APIs. MIA-DPO is compatible with various
architectures and outperforms existing methods on five multi-image benchmarks,
achieving an average performance boost of 3.0% on LLaVA-v1.5 and 4.3% on the
recent InternLM-XC2.5. Moreover, MIA-DPO has a minimal effect on the model's
ability to understand single images.Summary
AI-Generated Summary