RIFLEx: Бесплатный обед для экстраполяции длины в видео диффузии трансформеров
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers
February 21, 2025
Авторы: Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
cs.AI
Аннотация
Недавние достижения в области генерации видео позволили моделям синтезировать видеоролики высокого качества продолжительностью в минуту. Однако создание даже более длинных видео с сохранением временной согласованности остается значительной проблемой, и существующие методы экстраполяции длины приводят к временным повторам или замедлению движения. В данной работе мы систематически анализируем роль частотных компонентов в позиционных вложениях и выявляем внутреннюю частоту, которая в основном управляет поведением экстраполяции. Исходя из этого понимания, мы предлагаем RIFLEx, минимальный, но эффективный подход, который снижает внутреннюю частоту для подавления повторов, сохраняя при этом согласованность движения, без необходимости в дополнительных модификациях. RIFLEx предлагает истинно бесплатный обед - достигая высококачественной экстраполяции в 2 раза на передовых видео-трансформерах диффузии в полностью обучающемся режиме. Более того, он повышает качество и позволяет экстраполировать в 3 раза с минимальной донастройкой без длинных видеороликов. Страница проекта и коды: https://riflex-video.github.io/{https://riflex-video.github.io/.}
English
Recent advancements in video generation have enabled models to synthesize
high-quality, minute-long videos. However, generating even longer videos with
temporal coherence remains a major challenge, and existing length extrapolation
methods lead to temporal repetition or motion deceleration. In this work, we
systematically analyze the role of frequency components in positional
embeddings and identify an intrinsic frequency that primarily governs
extrapolation behavior. Based on this insight, we propose RIFLEx, a minimal yet
effective approach that reduces the intrinsic frequency to suppress repetition
while preserving motion consistency, without requiring any additional
modifications. RIFLEx offers a true free lunch--achieving high-quality
2times extrapolation on state-of-the-art video diffusion transformers in a
completely training-free manner. Moreover, it enhances quality and enables
3times extrapolation by minimal fine-tuning without long videos. Project
page and codes:
https://riflex-video.github.io/{https://riflex-video.github.io/.}Summary
AI-Generated Summary