Video-T1: Scalatura al Tempo di Test per la Generazione di Video
Video-T1: Test-Time Scaling for Video Generation
March 24, 2025
Autori: Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan
cs.AI
Abstract
Con la capacità di scalare i dati di addestramento, le dimensioni del modello e i costi computazionali, la generazione di video ha ottenuto risultati impressionanti nella creazione digitale, consentendo agli utenti di esprimere la propria creatività in vari ambiti. Recentemente, i ricercatori nei modelli linguistici di grandi dimensioni (LLM) hanno esteso la scalabilità al tempo di test, il che può migliorare significativamente le prestazioni degli LLM utilizzando più risorse computazionali durante l'inferenza. Invece di aumentare la scala dei modelli di base per i video attraverso costosi costi di addestramento, esploriamo il potenziale della Scalabilità al Tempo di Test (TTS) nella generazione di video, con l'obiettivo di rispondere alla domanda: se a un modello di generazione video è consentito utilizzare una quantità non banale di risorse computazionali durante l'inferenza, quanto può migliorare la qualità della generazione dato un prompt testuale impegnativo. In questo lavoro, reinterpretiamo la scalabilità al tempo di test nella generazione di video come un problema di ricerca per campionare traiettorie migliori dallo spazio del rumore gaussiano alla distribuzione video target. Nello specifico, costruiamo lo spazio di ricerca con verificatori al tempo di test per fornire feedback e algoritmi euristici per guidare il processo di ricerca. Dato un prompt testuale, esploriamo prima una strategia di ricerca lineare intuitiva aumentando i candidati di rumore al momento dell'inferenza. Poiché la rimozione del rumore a tutti i fotogrammi contemporaneamente richiede costi computazionali elevati al tempo di test, progettiamo un metodo TTS più efficiente per la generazione di video chiamato Tree-of-Frames (ToF) che espande e pota i rami video in modo adattivo e autoregressivo. Esperimenti estesi su benchmark di generazione video condizionata da testo dimostrano che l'aumento delle risorse computazionali al tempo di test porta costantemente a miglioramenti significativi nella qualità dei video. Pagina del progetto: https://liuff19.github.io/Video-T1
English
With the scale capability of increasing training data, model size, and
computational cost, video generation has achieved impressive results in digital
creation, enabling users to express creativity across various domains.
Recently, researchers in Large Language Models (LLMs) have expanded the scaling
to test-time, which can significantly improve LLM performance by using more
inference-time computation. Instead of scaling up video foundation models
through expensive training costs, we explore the power of Test-Time Scaling
(TTS) in video generation, aiming to answer the question: if a video generation
model is allowed to use non-trivial amount of inference-time compute, how much
can it improve generation quality given a challenging text prompt. In this
work, we reinterpret the test-time scaling of video generation as a searching
problem to sample better trajectories from Gaussian noise space to the target
video distribution. Specifically, we build the search space with test-time
verifiers to provide feedback and heuristic algorithms to guide searching
process. Given a text prompt, we first explore an intuitive linear search
strategy by increasing noise candidates at inference time. As full-step
denoising all frames simultaneously requires heavy test-time computation costs,
we further design a more efficient TTS method for video generation called
Tree-of-Frames (ToF) that adaptively expands and prunes video branches in an
autoregressive manner. Extensive experiments on text-conditioned video
generation benchmarks demonstrate that increasing test-time compute
consistently leads to significant improvements in the quality of videos.
Project page: https://liuff19.github.io/Video-T1Summary
AI-Generated Summary