Guida Free^2: Controllo dell'Integrale di Percorso Senza Gradiente per Migliorare la Generazione Testo-Video con Grandi Modelli di Visione-Linguaggio
Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models
November 26, 2024
Autori: Jaemin Kim, Bryan S Kim, Jong Chul Ye
cs.AI
Abstract
I modelli di diffusione hanno ottenuto risultati impressionanti in compiti generativi come la sintesi testo-immagine (T2I) e testo-video (T2V). Tuttavia, ottenere un'allineamento accurato del testo nella generazione T2V rimane sfidante a causa della complessa dipendenza temporale tra i frame. Gli approcci esistenti basati sull'apprendimento per rinforzo (RL) per migliorare l'allineamento del testo spesso richiedono funzioni di ricompensa differenziabili o sono vincolati a prompt limitati, ostacolando la loro scalabilità e applicabilità. In questo articolo, proponiamo Free^2Guide, un nuovo framework senza gradienti per allineare video generati con prompt di testo senza richiedere ulteriore addestramento del modello. Sfruttando i principi del controllo dell'integrale di percorso, Free^2Guide approssima la guida per i modelli di diffusione utilizzando funzioni di ricompensa non differenziabili, consentendo così l'integrazione di potenti modelli Large Vision-Language Models (LVLMs) come modello di ricompensa. Inoltre, il nostro framework supporta l'ensemble flessibile di più modelli di ricompensa, inclusi modelli basati su immagini su larga scala, per potenziare sinergicamente l'allineamento senza incorrere in un notevole sovraccarico computazionale. Dimostriamo che Free^2Guide migliora significativamente l'allineamento del testo su varie dimensioni e migliora la qualità complessiva dei video generati.
English
Diffusion models have achieved impressive results in generative tasks like
text-to-image (T2I) and text-to-video (T2V) synthesis. However, achieving
accurate text alignment in T2V generation remains challenging due to the
complex temporal dependency across frames. Existing reinforcement learning
(RL)-based approaches to enhance text alignment often require differentiable
reward functions or are constrained to limited prompts, hindering their
scalability and applicability. In this paper, we propose Free^2Guide, a novel
gradient-free framework for aligning generated videos with text prompts without
requiring additional model training. Leveraging principles from path integral
control, Free^2Guide approximates guidance for diffusion models using
non-differentiable reward functions, thereby enabling the integration of
powerful black-box Large Vision-Language Models (LVLMs) as reward model.
Additionally, our framework supports the flexible ensembling of multiple reward
models, including large-scale image-based models, to synergistically enhance
alignment without incurring substantial computational overhead. We demonstrate
that Free^2Guide significantly improves text alignment across various
dimensions and enhances the overall quality of generated videos.Summary
AI-Generated Summary