Het Verbeteren van Videogeneratie met Menselijke Feedback
Improving Video Generation with Human Feedback
January 23, 2025
Auteurs: Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Wenyu Qin, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang
cs.AI
Samenvatting
Videogeneratie heeft aanzienlijke vooruitgang geboekt door gecorrigeerde flowtechnieken, maar problemen zoals onregelmatige beweging en misalignement tussen video's en aanwijzingen blijven bestaan. In dit werk ontwikkelen we een systematische pijplijn die menselijke feedback benut om deze problemen te verminderen en het videogeneratiemodel te verfijnen. We beginnen specifiek met het opbouwen van een grootschalige dataset van menselijke voorkeuren gericht op moderne videogeneratiemodellen, waarbij pairwise annotaties over meerdere dimensies worden opgenomen. Vervolgens introduceren we VideoReward, een multidimensionaal videobeloningsmodel, en onderzoeken hoe annotaties en verschillende ontwerpkeuzes van invloed zijn op de beloningsdoeltreffendheid. Vanuit een verenigd versterkend leerperspectief gericht op het maximaliseren van beloning met KL-regularisatie, introduceren we drie aligneringsalgoritmen voor op flow gebaseerde modellen door deze uit te breiden vanuit die van diffusiemodellen. Deze omvatten twee strategieën tijdens training: directe voorkeursoptimalisatie voor flow (Flow-DPO) en beloningsgewogen regressie voor flow (Flow-RWR), en een techniek tijdens inferentie, Flow-NRG, die beloningsbegeleiding rechtstreeks toepast op ruisachtige video's. Experimentele resultaten geven aan dat VideoReward aanzienlijk beter presteert dan bestaande beloningsmodellen, en dat Flow-DPO superieure prestaties laat zien in vergelijking met zowel Flow-RWR als standaard toezichtgestuurde fine-tuning methoden. Bovendien stelt Flow-NRG gebruikers in staat om aangepaste gewichten toe te kennen aan meerdere doelstellingen tijdens inferentie, om te voldoen aan gepersonaliseerde videokwaliteitsbehoeften. Projectpagina: https://gongyeliu.github.io/videoalign.
English
Video generation has achieved significant advances through rectified flow
techniques, but issues like unsmooth motion and misalignment between videos and
prompts persist. In this work, we develop a systematic pipeline that harnesses
human feedback to mitigate these problems and refine the video generation
model. Specifically, we begin by constructing a large-scale human preference
dataset focused on modern video generation models, incorporating pairwise
annotations across multi-dimensions. We then introduce VideoReward, a
multi-dimensional video reward model, and examine how annotations and various
design choices impact its rewarding efficacy. From a unified reinforcement
learning perspective aimed at maximizing reward with KL regularization, we
introduce three alignment algorithms for flow-based models by extending those
from diffusion models. These include two training-time strategies: direct
preference optimization for flow (Flow-DPO) and reward weighted regression for
flow (Flow-RWR), and an inference-time technique, Flow-NRG, which applies
reward guidance directly to noisy videos. Experimental results indicate that
VideoReward significantly outperforms existing reward models, and Flow-DPO
demonstrates superior performance compared to both Flow-RWR and standard
supervised fine-tuning methods. Additionally, Flow-NRG lets users assign custom
weights to multiple objectives during inference, meeting personalized video
quality needs. Project page: https://gongyeliu.github.io/videoalign.Summary
AI-Generated Summary