LLaVA-Critic: 다중 모달 모델 평가 학습
LLaVA-Critic: Learning to Evaluate Multimodal Models
October 3, 2024
저자: Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li
cs.AI
초록
우리는 LLaVA-Critic을 소개합니다. 이는 다양한 멀티모달 작업의 성능을 평가하기 위해 설계된 최초의 오픈 소스 대규모 멀티모달 모델(LMM)로, 일반 평가자로서의 역할을 합니다. LLaVA-Critic은 다양한 평가 기준과 시나리오를 통합한 고품질 비평가 지시 데이터셋을 사용하여 훈련되었습니다. 우리의 실험은 이 모델의 효과를 두 가지 주요 영역에서 입증합니다: (1) 판사로서의 LMM, 여기서 LLaVA-Critic은 신뢰할 수 있는 평가 점수를 제공하며 여러 평가 벤치마크에서 GPT 모델과 동등하거나 능가합니다; 그리고 (2) 선호 학습, 여기서 LLaVA-Critic은 선호 학습을 위한 보상 신호를 생성하여 모델 정렬 능력을 향상시킵니다. 이 연구는 오픈 소스 LMM의 자가 비평과 평가의 잠재력을 강조하며, LMM에 대한 확장 가능하고 초인간적인 정렬 피드백 메커니즘에 대한 미래 연구를 위한 기반을 마련합니다.
English
We introduce LLaVA-Critic, the first open-source large multimodal model (LMM)
designed as a generalist evaluator to assess performance across a wide range of
multimodal tasks. LLaVA-Critic is trained using a high-quality critic
instruction-following dataset that incorporates diverse evaluation criteria and
scenarios. Our experiments demonstrate the model's effectiveness in two key
areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation
scores, performing on par with or surpassing GPT models on multiple evaluation
benchmarks; and (2) Preference Learning, where it generates reward signals for
preference learning, enhancing model alignment capabilities. This work
underscores the potential of open-source LMMs in self-critique and evaluation,
setting the stage for future research into scalable, superhuman alignment
feedback mechanisms for LMMs.Summary
AI-Generated Summary