ChatPaper.aiChatPaper

Temporale Regularisierung macht Ihren Video-Generator leistungsfähiger.

Temporal Regularization Makes Your Video Generator Stronger

March 19, 2025
Autoren: Harold Haodong Chen, Haojian Huang, Xianfeng Wu, Yexin Liu, Yajing Bai, Wen-Jie Shu, Harry Yang, Ser-Nam Lim
cs.AI

Zusammenfassung

Die zeitliche Qualität ist ein entscheidender Aspekt der Videogenerierung, da sie konsistente Bewegungen und realistische Dynamik über die Frames hinweg gewährleistet. Dennoch bleibt die Erzielung hoher zeitlicher Kohärenz und Vielfalt eine Herausforderung. In dieser Arbeit untersuchen wir erstmals die zeitliche Augmentierung in der Videogenerierung und führen FluxFlow als initiale Untersuchungsstrategie ein, die darauf abzielt, die zeitliche Qualität zu verbessern. Auf der Datenebene operierend, wendet FluxFlow kontrollierte zeitliche Störungen an, ohne dass architektonische Modifikationen erforderlich sind. Umfangreiche Experimente auf den Benchmarks UCF-101 und VBench zeigen, dass FluxFlow die zeitliche Kohärenz und Vielfalt bei verschiedenen Videogenerierungsmodellen, einschließlich U-Net, DiT und AR-basierten Architekturen, signifikant verbessert, während die räumliche Treue erhalten bleibt. Diese Ergebnisse unterstreichen das Potenzial der zeitlichen Augmentierung als einfachen, aber effektiven Ansatz zur Steigerung der Qualität der Videogenerierung.
English
Temporal quality is a critical aspect of video generation, as it ensures consistent motion and realistic dynamics across frames. However, achieving high temporal coherence and diversity remains challenging. In this work, we explore temporal augmentation in video generation for the first time, and introduce FluxFlow for initial investigation, a strategy designed to enhance temporal quality. Operating at the data level, FluxFlow applies controlled temporal perturbations without requiring architectural modifications. Extensive experiments on UCF-101 and VBench benchmarks demonstrate that FluxFlow significantly improves temporal coherence and diversity across various video generation models, including U-Net, DiT, and AR-based architectures, while preserving spatial fidelity. These findings highlight the potential of temporal augmentation as a simple yet effective approach to advancing video generation quality.

Summary

AI-Generated Summary

PDF212March 20, 2025