MM-RLHF: 멀티모달 LLM 정렬의 다음 단계
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment
February 14, 2025
저자: Yi-Fan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Fan Yang, Zhang Zhang, Tingting Gao, Di Zhang, Liang Wang, Rong Jin, Tieniu Tan
cs.AI
초록
멀티모달 대형 언어 모델(MLLM) 분야에서 주목할 만한 발전이 있었음에도 불구하고, 대부분의 최첨단 모델들은 인간의 선호도와 철저하게 정렬되지 못한 상태입니다. 이러한 격차는 현재의 정렬 연구가 특정 영역(예: 환각 현상 감소)에서 주로 진전을 이루었기 때문에 존재하며, 모델을 인간의 선호도와 정렬시키는 것이 MLLM의 능력을 체계적으로 향상시킬 수 있는지에 대한 보다 광범위한 질문은 여전히 크게 탐구되지 않고 있습니다. 이를 위해, 우리는 120,000개의 세분화된 인간 주석이 달린 선호도 비교 쌍을 포함한 MM-RLHF 데이터셋을 소개합니다. 이 데이터셋은 기존 자원에 비해 크기, 다양성, 주석 세분화 및 품질 면에서 상당한 발전을 이루었습니다. 이 데이터셋을 활용하여, 우리는 보상 모델의 품질과 정렬 알고리즘의 효율성을 모두 개선하기 위한 몇 가지 주요 혁신을 제안합니다. 특히, 우리는 모델 출력에 대한 비평을 생성한 후 점수를 부여하는 Critique-Based Reward Model을 도입하여, 전통적인 스칼라 보상 메커니즘에 비해 향상된 해석 가능성과 더 유익한 피드백을 제공합니다. 또한, 우리는 각 샘플의 손실 가중치를 보상 신호에 따라 조정하는 Dynamic Reward Scaling 방법을 제안하여, 고품질 비교 쌍의 사용을 최적화합니다. 우리의 접근 방식은 10개의 서로 다른 차원과 27개의 벤치마크에서 엄격하게 평가되었으며, 그 결과 모델 성능에서 상당하고 일관된 개선이 있음을 보여줍니다. 구체적으로, MM-RLHF와 우리의 정렬 알고리즘을 사용하여 LLaVA-ov-7B를 미세 조정한 결과, 대화 능력이 19.5% 증가하고 안전성이 60% 향상되었습니다. 우리는 선호도 데이터셋, 보상 모델, 훈련 및 평가 코드, 그리고 보상 모델링 및 안전성 벤치마크를 오픈소스로 공개했습니다. 더 자세한 내용은 프로젝트 페이지(https://mm-rlhf.github.io)를 방문해 주세요.
English
Despite notable advancements in Multimodal Large Language Models (MLLMs),
most state-of-the-art models have not undergone thorough alignment with human
preferences. This gap exists because current alignment research has primarily
achieved progress in specific areas (e.g., hallucination reduction), while the
broader question of whether aligning models with human preferences can
systematically enhance MLLM capability remains largely unexplored. To this end,
we introduce MM-RLHF, a dataset containing 120k fine-grained,
human-annotated preference comparison pairs. This dataset represents a
substantial advancement over existing resources, offering superior size,
diversity, annotation granularity, and quality. Leveraging this dataset, we
propose several key innovations to improve both the quality of reward models
and the efficiency of alignment algorithms. Notably, we introduce a
Critique-Based Reward Model, which generates critiques of model outputs before
assigning scores, offering enhanced interpretability and more informative
feedback compared to traditional scalar reward mechanisms. Additionally, we
propose Dynamic Reward Scaling, a method that adjusts the loss weight of each
sample according to the reward signal, thereby optimizing the use of
high-quality comparison pairs. Our approach is rigorously evaluated across
10 distinct dimensions and 27 benchmarks, with results
demonstrating significant and consistent improvements in model performance.
Specifically, fine-tuning LLaVA-ov-7B with MM-RLHF and our alignment algorithm
leads to a 19.5% increase in conversational abilities and a
60% improvement in safety.
We have open-sourced the preference dataset, reward model, training and
evaluation code, as well as reward modeling and safety benchmarks. For more
details, please visit our project page: https://mm-rlhf.github.io.Summary
AI-Generated Summary