Guida Free^2: Controllo dell'Integrale di Percorso Senza Gradiente per Migliorare la Generazione Testo-Video con Grandi Modelli di Visione-Linguaggio

Abstract

I modelli di diffusione hanno ottenuto risultati impressionanti in compiti generativi come la sintesi testo-immagine (T2I) e testo-video (T2V). Tuttavia, ottenere un'allineamento accurato del testo nella generazione T2V rimane sfidante a causa della complessa dipendenza temporale tra i frame. Gli approcci esistenti basati sull'apprendimento per rinforzo (RL) per migliorare l'allineamento del testo spesso richiedono funzioni di ricompensa differenziabili o sono vincolati a prompt limitati, ostacolando la loro scalabilità e applicabilità. In questo articolo, proponiamo Free^2Guide, un nuovo framework senza gradienti per allineare video generati con prompt di testo senza richiedere ulteriore addestramento del modello. Sfruttando i principi del controllo dell'integrale di percorso, Free^2Guide approssima la guida per i modelli di diffusione utilizzando funzioni di ricompensa non differenziabili, consentendo così l'integrazione di potenti modelli Large Vision-Language Models (LVLMs) come modello di ricompensa. Inoltre, il nostro framework supporta l'ensemble flessibile di più modelli di ricompensa, inclusi modelli basati su immagini su larga scala, per potenziare sinergicamente l'allineamento senza incorrere in un notevole sovraccarico computazionale. Dimostriamo che Free^2Guide migliora significativamente l'allineamento del testo su varie dimensioni e migliora la qualità complessiva dei video generati.

English

Diffusion models have achieved impressive results in generative tasks like text-to-image (T2I) and text-to-video (T2V) synthesis. However, achieving accurate text alignment in T2V generation remains challenging due to the complex temporal dependency across frames. Existing reinforcement learning (RL)-based approaches to enhance text alignment often require differentiable reward functions or are constrained to limited prompts, hindering their scalability and applicability. In this paper, we propose Free^2Guide, a novel gradient-free framework for aligning generated videos with text prompts without requiring additional model training. Leveraging principles from path integral control, Free^2Guide approximates guidance for diffusion models using non-differentiable reward functions, thereby enabling the integration of powerful black-box Large Vision-Language Models (LVLMs) as reward model. Additionally, our framework supports the flexible ensembling of multiple reward models, including large-scale image-based models, to synergistically enhance alignment without incurring substantial computational overhead. We demonstrate that Free^2Guide significantly improves text alignment across various dimensions and enhances the overall quality of generated videos.

Guida Free^2: Controllo dell'Integrale di Percorso Senza Gradiente per Migliorare la Generazione Testo-Video con Grandi Modelli di Visione-Linguaggio

Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

Abstract

Support