ChatPaper.aiChatPaper

LiFT: 텍스트에서 비디오 모델 정렬을 위한 인간 피드백 활용

LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment

December 6, 2024
저자: Yibin Wang, Zhiyu Tan, Junyan Wang, Xiaomeng Yang, Cheng Jin, Hao Li
cs.AI

초록

텍스트에서 비디오로 (T2V) 생성 모델의 최근 발전은 인상적인 능력을 보여주었습니다. 그러나 이러한 모델은 여전히 합성된 비디오를 인간의 선호도와 일치시키는 데 미흡합니다 (예: 텍스트 설명을 정확히 반영하는 것). 이는 인간의 선호도가 본질적으로 주관적이며 객관적 함수로 형식화하기 어려운 것을 특히 어렵게 만듭니다. 따라서 본 논문에서는 T2V 모델 정렬을 위해 인간 피드백을 활용하는 새로운 파인튜닝 방법인 LiFT를 제안합니다. 구체적으로, 우리는 먼저 약 10,000개의 인간 주석을 포함한 LiFT-HRA(Human Rating Annotation) 데이터셋을 구축합니다. 이를 기반으로 보상 모델인 LiFT-Critic을 훈련시켜 보상 함수를 효과적으로 학습시킵니다. 이 함수는 인간 판단의 대리자 역할을 하며 주어진 비디오와 인간의 기대 사이의 정렬을 측정합니다. 마지막으로, 학습된 보상 함수를 활용하여 T2V 모델을 정렬시켜 보상 가중 가능도를 최대화합니다. 사례 연구로, 우리는 CogVideoX-2B에 우리의 파이프라인을 적용하여, 파인튜닝된 모델이 16가지 메트릭을 모두 통해 CogVideoX-5B를 능가함을 보여줌으로써, 인간 피드백이 합성된 비디오의 정렬과 품질을 향상시키는 데 잠재력을 강조합니다.
English
Recent advancements in text-to-video (T2V) generative models have shown impressive capabilities. However, these models are still inadequate in aligning synthesized videos with human preferences (e.g., accurately reflecting text descriptions), which is particularly difficult to address, as human preferences are inherently subjective and challenging to formalize as objective functions. Therefore, this paper proposes LiFT, a novel fine-tuning method leveraging human feedback for T2V model alignment. Specifically, we first construct a Human Rating Annotation dataset, LiFT-HRA, consisting of approximately 10k human annotations, each including a score and its corresponding rationale. Based on this, we train a reward model LiFT-Critic to learn reward function effectively, which serves as a proxy for human judgment, measuring the alignment between given videos and human expectations. Lastly, we leverage the learned reward function to align the T2V model by maximizing the reward-weighted likelihood. As a case study, we apply our pipeline to CogVideoX-2B, showing that the fine-tuned model outperforms the CogVideoX-5B across all 16 metrics, highlighting the potential of human feedback in improving the alignment and quality of synthesized videos.

Summary

AI-Generated Summary

PDF463December 9, 2024