ChatPaper.aiChatPaper

RIFLEx: Бесплатный обед для экстраполяции длины в видео диффузии трансформеров

RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

February 21, 2025
Авторы: Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
cs.AI

Аннотация

Недавние достижения в области генерации видео позволили моделям синтезировать видеоролики высокого качества продолжительностью в минуту. Однако создание даже более длинных видео с сохранением временной согласованности остается значительной проблемой, и существующие методы экстраполяции длины приводят к временным повторам или замедлению движения. В данной работе мы систематически анализируем роль частотных компонентов в позиционных вложениях и выявляем внутреннюю частоту, которая в основном управляет поведением экстраполяции. Исходя из этого понимания, мы предлагаем RIFLEx, минимальный, но эффективный подход, который снижает внутреннюю частоту для подавления повторов, сохраняя при этом согласованность движения, без необходимости в дополнительных модификациях. RIFLEx предлагает истинно бесплатный обед - достигая высококачественной экстраполяции в 2 раза на передовых видео-трансформерах диффузии в полностью обучающемся режиме. Более того, он повышает качество и позволяет экстраполировать в 3 раза с минимальной донастройкой без длинных видеороликов. Страница проекта и коды: https://riflex-video.github.io/{https://riflex-video.github.io/.}
English
Recent advancements in video generation have enabled models to synthesize high-quality, minute-long videos. However, generating even longer videos with temporal coherence remains a major challenge, and existing length extrapolation methods lead to temporal repetition or motion deceleration. In this work, we systematically analyze the role of frequency components in positional embeddings and identify an intrinsic frequency that primarily governs extrapolation behavior. Based on this insight, we propose RIFLEx, a minimal yet effective approach that reduces the intrinsic frequency to suppress repetition while preserving motion consistency, without requiring any additional modifications. RIFLEx offers a true free lunch--achieving high-quality 2times extrapolation on state-of-the-art video diffusion transformers in a completely training-free manner. Moreover, it enhances quality and enables 3times extrapolation by minimal fine-tuning without long videos. Project page and codes: https://riflex-video.github.io/{https://riflex-video.github.io/.}

Summary

AI-Generated Summary

PDF203February 25, 2025