Verbesserung der Videogenerierung mit menschlichem Feedback.
Improving Video Generation with Human Feedback
January 23, 2025
Autoren: Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Wenyu Qin, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang
cs.AI
Zusammenfassung
Die Videogenerierung hat durch korrigierte Flusstechniken signifikante Fortschritte erzielt, aber Probleme wie ungleichmäßige Bewegungen und Missabstimmungen zwischen Videos und Anweisungen bestehen weiterhin. In dieser Arbeit entwickeln wir eine systematische Pipeline, die menschliches Feedback nutzt, um diese Probleme zu mildern und das Videogenerierungsmodell zu verfeinern. Konkret beginnen wir mit dem Aufbau eines umfangreichen menschlichen Präferenzdatensatzes, der sich auf moderne Videogenerierungsmodelle konzentriert und paarweise Annotationen über mehrere Dimensionen einbezieht. Anschließend führen wir VideoReward ein, ein multidimensionales Videoprämienmodell, und untersuchen, wie Annotationen und verschiedene Designentscheidungen seine Belohnungseffektivität beeinflussen. Aus einer vereinheitlichten Verstärkungslernperspektive, die darauf abzielt, die Belohnung mit KL-Regularisierung zu maximieren, führen wir drei Ausrichtungsalgorithmen für Flussmodelle ein, indem wir diejenigen von Diffusionsmodellen erweitern. Diese umfassen zwei Trainingsstrategien: direkte Präferenzoptimierung für Fluss (Flow-DPO) und belohnungsgewichtete Regression für Fluss (Flow-RWR), sowie eine Technik zur Inferenzzeit, Flow-NRG, die die Belohnungsanleitung direkt auf rauschige Videos anwendet. Experimentelle Ergebnisse zeigen, dass VideoReward signifikant besser abschneidet als bestehende Belohnungsmodelle und dass Flow-DPO eine überlegene Leistung im Vergleich zu sowohl Flow-RWR als auch Standard-Supervised-Finetuning-Methoden aufweist. Darüber hinaus ermöglicht es Flow-NRG Benutzern, benutzerdefinierte Gewichte für mehrere Ziele während der Inferenz zuzuweisen, um individuellen Anforderungen an die Videoqualität gerecht zu werden. Projektseite: https://gongyeliu.github.io/videoalign.
English
Video generation has achieved significant advances through rectified flow
techniques, but issues like unsmooth motion and misalignment between videos and
prompts persist. In this work, we develop a systematic pipeline that harnesses
human feedback to mitigate these problems and refine the video generation
model. Specifically, we begin by constructing a large-scale human preference
dataset focused on modern video generation models, incorporating pairwise
annotations across multi-dimensions. We then introduce VideoReward, a
multi-dimensional video reward model, and examine how annotations and various
design choices impact its rewarding efficacy. From a unified reinforcement
learning perspective aimed at maximizing reward with KL regularization, we
introduce three alignment algorithms for flow-based models by extending those
from diffusion models. These include two training-time strategies: direct
preference optimization for flow (Flow-DPO) and reward weighted regression for
flow (Flow-RWR), and an inference-time technique, Flow-NRG, which applies
reward guidance directly to noisy videos. Experimental results indicate that
VideoReward significantly outperforms existing reward models, and Flow-DPO
demonstrates superior performance compared to both Flow-RWR and standard
supervised fine-tuning methods. Additionally, Flow-NRG lets users assign custom
weights to multiple objectives during inference, meeting personalized video
quality needs. Project page: https://gongyeliu.github.io/videoalign.Summary
AI-Generated Summary