Лучшее из двух миров: интеграция языковых моделей и диффузионных моделей для генерации видео
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation
March 6, 2025
Авторы: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang
cs.AI
Аннотация
Последние достижения в области генерации текста в видео (T2V) обусловлены двумя конкурирующими парадигмами: авторегрессивными языковыми моделями и диффузионными моделями. Однако каждая из этих парадигм имеет свои внутренние ограничения: языковые модели испытывают трудности с визуальным качеством и накоплением ошибок, в то время как диффузионные модели недостаточно эффективны в семантическом понимании и моделировании причинно-следственных связей. В данной работе мы предлагаем LanDiff, гибридную архитектуру, которая объединяет сильные стороны обеих парадигм через генерацию от грубого к детальному. Наша архитектура включает три ключевых инновации: (1) семантический токенизатор, который сжимает 3D визуальные признаки в компактные 1D дискретные представления с помощью эффективной семантической компрессии, достигая коэффициента сжатия в 14,000 раз; (2) языковую модель, которая генерирует семантические токены с учетом высокоуровневых семантических связей; (3) потоковую диффузионную модель, которая преобразует грубую семантику в видео высокой четкости. Эксперименты показывают, что LanDiff, модель объемом 5 млрд параметров, достигает оценки 85.43 на бенчмарке VBench T2V, превосходя современные открытые модели, такие как Hunyuan Video (13 млрд), а также коммерческие модели, включая Sora, Keling и Hailuo. Кроме того, наша модель демонстрирует наилучшие результаты в генерации длинных видео, превосходя другие открытые модели в этой области. Нашу демонстрацию можно посмотреть по адресу https://landiff.github.io/.
English
Recent advancements in text-to-video (T2V) generation have been driven by two
competing paradigms: autoregressive language models and diffusion models.
However, each paradigm has intrinsic limitations: language models struggle with
visual quality and error accumulation, while diffusion models lack semantic
understanding and causal modeling. In this work, we propose LanDiff, a hybrid
framework that synergizes the strengths of both paradigms through
coarse-to-fine generation. Our architecture introduces three key innovations:
(1) a semantic tokenizer that compresses 3D visual features into compact 1D
discrete representations through efficient semantic compression, achieving a
sim14,000times compression ratio; (2) a language model that generates
semantic tokens with high-level semantic relationships; (3) a streaming
diffusion model that refines coarse semantics into high-fidelity videos.
Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the
VBench T2V benchmark, surpassing the state-of-the-art open-source models
Hunyuan Video (13B) and other commercial models such as Sora, Keling, and
Hailuo. Furthermore, our model also achieves state-of-the-art performance in
long video generation, surpassing other open-source models in this field. Our
demo can be viewed at https://landiff.github.io/.Summary
AI-Generated Summary