VisionReward: 이미지 및 비디오 생성을 위한 세밀한 다차원 인간 선호 학습
VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation
December 30, 2024
저자: Jiazheng Xu, Yu Huang, Jiale Cheng, Yuanming Yang, Jiajun Xu, Yuan Wang, Wenbo Duan, Shen Yang, Qunlin Jin, Shurun Li, Jiayan Teng, Zhuoyi Yang, Wendi Zheng, Xiao Liu, Ming Ding, Xiaohan Zhang, Xiaotao Gu, Shiyu Huang, Minlie Huang, Jie Tang, Yuxiao Dong
cs.AI
초록
우리는 인간의 선호도와 시각 생성 모델 - 이미지 및 비디오 생성 모델 -을 조정하는 일반적인 전략을 제시합니다. 먼저, 섬세하고 다차원적인 보상 모델인 VisionReward를 구축합니다. 이미지와 비디오에서의 인간의 선호도를 여러 차원으로 분해하여 각각을 일련의 판단 질문으로 표현하고, 선형 가중치를 부여하여 해석 가능하고 정확한 점수로 합산합니다. 비디오 품질 평가의 어려움에 대처하기 위해, 우리는 비디오의 다양한 동적 특징을 체계적으로 분석하여 VisionReward가 VideoScore를 17.2% 능가하고 비디오 선호도 예측에서 최고 성능을 달성하도록 돕습니다. VisionReward를 기반으로, 우리는 선호도 데이터 내의 혼동 요인을 효과적으로 다루는 다중 목적 선호 학습 알고리즘을 개발합니다. 우리의 접근 방식은 기계 측정 항목과 인간 평가 모두에서 기존 이미지 및 비디오 평가 방법을 크게 능가합니다. 모든 코드와 데이터셋은 https://github.com/THUDM/VisionReward에서 제공됩니다.
English
We present a general strategy to aligning visual generation models -- both
image and video generation -- with human preference. To start with, we build
VisionReward -- a fine-grained and multi-dimensional reward model. We decompose
human preferences in images and videos into multiple dimensions, each
represented by a series of judgment questions, linearly weighted and summed to
an interpretable and accurate score. To address the challenges of video quality
assessment, we systematically analyze various dynamic features of videos, which
helps VisionReward surpass VideoScore by 17.2% and achieve top performance for
video preference prediction. Based on VisionReward, we develop a
multi-objective preference learning algorithm that effectively addresses the
issue of confounding factors within preference data. Our approach significantly
outperforms existing image and video scoring methods on both machine metrics
and human evaluation. All code and datasets are provided at
https://github.com/THUDM/VisionReward.Summary
AI-Generated Summary