Video-T1: Testzeit-Skalierung für die Videogenerierung
Video-T1: Test-Time Scaling for Video Generation
March 24, 2025
Autoren: Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan
cs.AI
Zusammenfassung
Mit der Fähigkeit, Trainingsdaten, Modellgröße und Rechenkosten zu skalieren, hat die Videogenerierung beeindruckende Ergebnisse in der digitalen Kreation erzielt, wodurch Nutzer ihre Kreativität in verschiedenen Domänen ausdrücken können. Kürzlich haben Forscher im Bereich der Large Language Models (LLMs) die Skalierung auf die Testzeit ausgeweitet, was die Leistung von LLMs durch den Einsatz von mehr Rechenleistung während der Inferenz erheblich verbessern kann. Anstatt Videofundamentmodelle durch teure Trainingskosten zu skalieren, untersuchen wir die Möglichkeiten des Test-Time Scaling (TTS) in der Videogenerierung, um die Frage zu beantworten: Wenn einem Videogenerierungsmodell eine nicht triviale Menge an Rechenleistung während der Inferenz zur Verfügung steht, wie sehr kann es die Generierungsqualität bei einer herausfordernden Textaufforderung verbessern? In dieser Arbeit interpretieren wir das Test-Time Scaling der Videogenerierung als ein Suchproblem, um bessere Trajektorien aus dem Gaußschen Rauschraum zur Zielvideoverteilung zu sampeln. Konkret bauen wir den Suchraum mit Test-Time-Verifizierern auf, die Feedback liefern, und heuristischen Algorithmen, die den Suchprozess leiten. Bei einer Textaufforderung untersuchen wir zunächst eine intuitive lineare Suchstrategie, indem wir die Rauschkandidaten während der Inferenz erhöhen. Da die vollständige Entrauschung aller Frames gleichzeitig hohe Rechenkosten während der Testzeit erfordert, entwerfen wir eine effizientere TTS-Methode für die Videogenerierung, genannt Tree-of-Frames (ToF), die Videobranchen in autoregressiver Weise adaptiv erweitert und beschneidet. Umfangreiche Experimente auf Benchmarks für textbedingte Videogenerierung zeigen, dass eine Erhöhung der Rechenleistung während der Testzeit konsequent zu signifikanten Verbesserungen der Videoqualität führt. Projektseite: https://liuff19.github.io/Video-T1
English
With the scale capability of increasing training data, model size, and
computational cost, video generation has achieved impressive results in digital
creation, enabling users to express creativity across various domains.
Recently, researchers in Large Language Models (LLMs) have expanded the scaling
to test-time, which can significantly improve LLM performance by using more
inference-time computation. Instead of scaling up video foundation models
through expensive training costs, we explore the power of Test-Time Scaling
(TTS) in video generation, aiming to answer the question: if a video generation
model is allowed to use non-trivial amount of inference-time compute, how much
can it improve generation quality given a challenging text prompt. In this
work, we reinterpret the test-time scaling of video generation as a searching
problem to sample better trajectories from Gaussian noise space to the target
video distribution. Specifically, we build the search space with test-time
verifiers to provide feedback and heuristic algorithms to guide searching
process. Given a text prompt, we first explore an intuitive linear search
strategy by increasing noise candidates at inference time. As full-step
denoising all frames simultaneously requires heavy test-time computation costs,
we further design a more efficient TTS method for video generation called
Tree-of-Frames (ToF) that adaptively expands and prunes video branches in an
autoregressive manner. Extensive experiments on text-conditioned video
generation benchmarks demonstrate that increasing test-time compute
consistently leads to significant improvements in the quality of videos.
Project page: https://liuff19.github.io/Video-T1Summary
AI-Generated Summary