인간 피드백을 활용한 비디오 생성의 향상
Improving Video Generation with Human Feedback
January 23, 2025
저자: Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Wenyu Qin, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang
cs.AI
초록
비디오 생성은 수정된 플로우 기술을 통해 상당한 진전을 이루었지만, 부드럽지 않은 움직임과 비디오와 프롬프트 간의 불일치 같은 문제가 지속되고 있습니다. 본 연구에서는 이러한 문제를 완화하고 비디오 생성 모델을 개선하기 위해 인간 피드백을 활용하는 체계적인 파이프라인을 개발합니다. 구체적으로 현대 비디오 생성 모델에 초점을 맞춘 대규모 인간 선호 데이터셋을 구축하여 다차원적으로 쌍으로 된 주석을 통합합니다. 그런 다음 다차원 비디오 보상 모델 VideoReward를 소개하고 주석 및 다양한 설계 선택이 보상 효과에 미치는 영향을 조사합니다. 보상을 최대화하기 위해 KL 정규화를 사용하는 통합 강화 학습 관점에서, 확산 모델에서 확장된 흐름 기반 모델을 위해 세 가지 정렬 알고리즘을 소개합니다. 이에는 두 가지 훈련 시 전략이 포함되어 있습니다: 흐름에 대한 직접적인 선호 최적화 (Flow-DPO) 및 흐름에 대한 보상 가중 회귀 (Flow-RWR) 그리고 추론 시 기술인 Flow-NRG은 노이즈가 있는 비디오에 직접 보상 가이드를 적용합니다. 실험 결과는 VideoReward가 기존 보상 모델보다 훨씬 우수한 성능을 보여주며, Flow-DPO가 Flow-RWR 및 표준 지도 미세 조정 방법보다 우수한 성능을 나타낸다는 것을 보여줍니다. 또한, Flow-NRG는 사용자가 추론 중에 여러 목표에 사용자 정의 가중치를 할당할 수 있도록 하여 개인화된 비디오 품질 요구를 충족시킵니다. 프로젝트 페이지: https://gongyeliu.github.io/videoalign.
English
Video generation has achieved significant advances through rectified flow
techniques, but issues like unsmooth motion and misalignment between videos and
prompts persist. In this work, we develop a systematic pipeline that harnesses
human feedback to mitigate these problems and refine the video generation
model. Specifically, we begin by constructing a large-scale human preference
dataset focused on modern video generation models, incorporating pairwise
annotations across multi-dimensions. We then introduce VideoReward, a
multi-dimensional video reward model, and examine how annotations and various
design choices impact its rewarding efficacy. From a unified reinforcement
learning perspective aimed at maximizing reward with KL regularization, we
introduce three alignment algorithms for flow-based models by extending those
from diffusion models. These include two training-time strategies: direct
preference optimization for flow (Flow-DPO) and reward weighted regression for
flow (Flow-RWR), and an inference-time technique, Flow-NRG, which applies
reward guidance directly to noisy videos. Experimental results indicate that
VideoReward significantly outperforms existing reward models, and Flow-DPO
demonstrates superior performance compared to both Flow-RWR and standard
supervised fine-tuning methods. Additionally, Flow-NRG lets users assign custom
weights to multiple objectives during inference, meeting personalized video
quality needs. Project page: https://gongyeliu.github.io/videoalign.Summary
AI-Generated Summary