VisionReward:画像とビデオ生成のための細かい多次元人間の選好学習
VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation
December 30, 2024
著者: Jiazheng Xu, Yu Huang, Jiale Cheng, Yuanming Yang, Jiajun Xu, Yuan Wang, Wenbo Duan, Shen Yang, Qunlin Jin, Shurun Li, Jiayan Teng, Zhuoyi Yang, Wendi Zheng, Xiao Liu, Ming Ding, Xiaohan Zhang, Xiaotao Gu, Shiyu Huang, Minlie Huang, Jie Tang, Yuxiao Dong
cs.AI
要旨
我々は、画像生成および動画生成の両方に人間の好みを合わせるための一般的な戦略を提案します。まず第一に、細かく多次元の報酬モデルであるVisionRewardを構築します。画像と動画における人間の好みを、複数の次元に分解し、各次元を一連の判断質問で表現し、線形に重み付けして合計し、解釈可能で正確なスコアにします。動画の品質評価の課題に対処するために、動画のさまざまな動的特徴を系統的に分析し、VisionRewardがVideoScoreを17.2%上回り、動画の好み予測で最高のパフォーマンスを達成するのに役立ちます。VisionRewardを基に、優先学習アルゴリズムを開発し、優先データ内の交絡因子の問題を効果的に対処します。当社のアプローチは、既存の画像および動画のスコアリング方法を、機械メトリクスと人間の評価の両方で大幅に上回ります。すべてのコードとデータセットは、https://github.com/THUDM/VisionReward で提供されています。
English
We present a general strategy to aligning visual generation models -- both
image and video generation -- with human preference. To start with, we build
VisionReward -- a fine-grained and multi-dimensional reward model. We decompose
human preferences in images and videos into multiple dimensions, each
represented by a series of judgment questions, linearly weighted and summed to
an interpretable and accurate score. To address the challenges of video quality
assessment, we systematically analyze various dynamic features of videos, which
helps VisionReward surpass VideoScore by 17.2% and achieve top performance for
video preference prediction. Based on VisionReward, we develop a
multi-objective preference learning algorithm that effectively addresses the
issue of confounding factors within preference data. Our approach significantly
outperforms existing image and video scoring methods on both machine metrics
and human evaluation. All code and datasets are provided at
https://github.com/THUDM/VisionReward.Summary
AI-Generated Summary