자유^2가이드: 대규모 Vision-Language 모델을 활용한 텍스트-비디오 생성 향상을 위한 그래디언트-프리 경로 적분 제어
Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models
November 26, 2024
저자: Jaemin Kim, Bryan S Kim, Jong Chul Ye
cs.AI
초록
확산 모델은 텍스트-이미지 (T2I) 및 텍스트-비디오 (T2V) 합성과 같은 생성 작업에서 인상적인 결과를 달성했습니다. 그러나 T2V 생성에서 정확한 텍스트 정렬을 달성하는 것은 프레임 간 복잡한 시간 의존성으로 인해 여전히 어려움을 겪고 있습니다. 기존의 강화 학습 (RL) 기반 접근 방식은 종종 미분 가능한 보상 함수가 필요하거나 제한된 프롬프트에 국한되어 확장성과 적용 가능성이 제한되는 문제가 있습니다. 본 논문에서는 추가 모델 훈련이 필요하지 않는 생성된 비디오를 텍스트 프롬프트와 정렬하는 새로운 그래디언트-프리 프레임워크인 Free^2Guide를 제안합니다. 경로 적분 제어의 원리를 활용하여 Free^2Guide는 미분 불가능한 보상 함수를 사용하여 확산 모델을 위한 가이드를 근사화함으로써 강력한 블랙박스 대형 비전-언어 모델 (LVLMs)을 보상 모델로 통합할 수 있습니다. 또한 우리의 프레임워크는 대규모 이미지 기반 모델을 포함한 여러 보상 모델을 유연하게 앙상블링하여 정렬을 협력적으로 향상시키면서 상당한 계산 부담을 초래하지 않습니다. Free^2Guide가 다양한 차원에서 텍스트 정렬을 크게 개선하고 생성된 비디오의 전반적인 품질을 향상시킨다는 것을 증명합니다.
English
Diffusion models have achieved impressive results in generative tasks like
text-to-image (T2I) and text-to-video (T2V) synthesis. However, achieving
accurate text alignment in T2V generation remains challenging due to the
complex temporal dependency across frames. Existing reinforcement learning
(RL)-based approaches to enhance text alignment often require differentiable
reward functions or are constrained to limited prompts, hindering their
scalability and applicability. In this paper, we propose Free^2Guide, a novel
gradient-free framework for aligning generated videos with text prompts without
requiring additional model training. Leveraging principles from path integral
control, Free^2Guide approximates guidance for diffusion models using
non-differentiable reward functions, thereby enabling the integration of
powerful black-box Large Vision-Language Models (LVLMs) as reward model.
Additionally, our framework supports the flexible ensembling of multiple reward
models, including large-scale image-based models, to synergistically enhance
alignment without incurring substantial computational overhead. We demonstrate
that Free^2Guide significantly improves text alignment across various
dimensions and enhances the overall quality of generated videos.Summary
AI-Generated Summary