VisionReward: Apprendimento delle Preferenze Umane Multidimensionali Dettagliato per la Generazione di Immagini e Video
VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation
December 30, 2024
Autori: Jiazheng Xu, Yu Huang, Jiale Cheng, Yuanming Yang, Jiajun Xu, Yuan Wang, Wenbo Duan, Shen Yang, Qunlin Jin, Shurun Li, Jiayan Teng, Zhuoyi Yang, Wendi Zheng, Xiao Liu, Ming Ding, Xiaohan Zhang, Xiaotao Gu, Shiyu Huang, Minlie Huang, Jie Tang, Yuxiao Dong
cs.AI
Abstract
Presentiamo una strategia generale per allineare i modelli di generazione visiva - sia per immagini che per video - con le preferenze umane. Per iniziare, costruiamo VisionReward - un modello di ricompensa dettagliato e multidimensionale. Scomponiamo le preferenze umane in immagini e video in diverse dimensioni, ognuna rappresentata da una serie di domande di giudizio, pesate linearmente e sommate per ottenere un punteggio interpretabile e accurato. Per affrontare le sfide dell'analisi della qualità dei video, analizziamo sistematicamente varie caratteristiche dinamiche dei video, che aiutano VisionReward a superare VideoScore del 17,2% e a raggiungere le migliori prestazioni per la predizione delle preferenze video. Basandoci su VisionReward, sviluppiamo un algoritmo di apprendimento delle preferenze multi-obiettivo che affronta efficacemente il problema dei fattori confondenti nei dati sulle preferenze. Il nostro approccio supera significativamente i metodi esistenti di valutazione delle immagini e dei video sia in termini di metriche automatiche che di valutazione umana. Tutto il codice e i set di dati sono disponibili su https://github.com/THUDM/VisionReward.
English
We present a general strategy to aligning visual generation models -- both
image and video generation -- with human preference. To start with, we build
VisionReward -- a fine-grained and multi-dimensional reward model. We decompose
human preferences in images and videos into multiple dimensions, each
represented by a series of judgment questions, linearly weighted and summed to
an interpretable and accurate score. To address the challenges of video quality
assessment, we systematically analyze various dynamic features of videos, which
helps VisionReward surpass VideoScore by 17.2% and achieve top performance for
video preference prediction. Based on VisionReward, we develop a
multi-objective preference learning algorithm that effectively addresses the
issue of confounding factors within preference data. Our approach significantly
outperforms existing image and video scoring methods on both machine metrics
and human evaluation. All code and datasets are provided at
https://github.com/THUDM/VisionReward.Summary
AI-Generated Summary