Mimir: Miglioramento dei Modelli di Diffusione Video per una Precisa Comprensione del Testo
Mimir: Improving Video Diffusion Models for Precise Text Understanding
December 4, 2024
Autori: Shuai Tan, Biao Gong, Yutong Feng, Kecheng Zheng, Dandan Zheng, Shuwei Shi, Yujun Shen, Jingdong Chen, Ming Yang
cs.AI
Abstract
Il testo funge da segnale di controllo chiave nella generazione di video a causa della sua natura narrativa. Per rendere le descrizioni testuali in sequenze video, i modelli attuali di diffusione video prendono in prestito le caratteristiche dagli encoder di testo ma faticano con una limitata comprensione del testo. Il recente successo dei grandi modelli linguistici (LLM) mette in mostra il potere dei transformer basati solo sul decoder, che offre tre chiari vantaggi per la generazione testo-video (T2V), ovvero una precisa comprensione del testo grazie alla scalabilità superiore, l'immaginazione oltre il testo di input abilitata dalla previsione del token successivo e la flessibilità nel privilegiare gli interessi dell'utente attraverso l'ottimizzazione delle istruzioni. Tuttavia, il divario nella distribuzione delle caratteristiche emergente dai due diversi paradigmi di modellazione del testo ostacola l'uso diretto dei LLM nei modelli T2V consolidati. Questo lavoro affronta questa sfida con Mimir, un framework di addestramento end-to-end che presenta un fuser di token attentamente progettato per armonizzare le uscite dagli encoder di testo e dai LLM. Tale progettazione consente al modello T2V di sfruttare appieno le conoscenze pregresse sui video apprese, capitalizzando al contempo sulle capacità relative al testo dei LLM. Estesi risultati quantitativi e qualitativi dimostrano l'efficacia di Mimir nella generazione di video di alta qualità con un'eccellente comprensione del testo, specialmente nel trattare brevi didascalie e gestire movimenti dinamici. Pagina del progetto: https://lucaria-academy.github.io/Mimir/
English
Text serves as the key control signal in video generation due to its
narrative nature. To render text descriptions into video clips, current video
diffusion models borrow features from text encoders yet struggle with limited
text comprehension. The recent success of large language models (LLMs)
showcases the power of decoder-only transformers, which offers three clear
benefits for text-to-video (T2V) generation, namely, precise text understanding
resulting from the superior scalability, imagination beyond the input text
enabled by next token prediction, and flexibility to prioritize user interests
through instruction tuning. Nevertheless, the feature distribution gap emerging
from the two different text modeling paradigms hinders the direct use of LLMs
in established T2V models. This work addresses this challenge with Mimir, an
end-to-end training framework featuring a carefully tailored token fuser to
harmonize the outputs from text encoders and LLMs. Such a design allows the T2V
model to fully leverage learned video priors while capitalizing on the
text-related capability of LLMs. Extensive quantitative and qualitative results
demonstrate the effectiveness of Mimir in generating high-quality videos with
excellent text comprehension, especially when processing short captions and
managing shifting motions. Project page:
https://lucaria-academy.github.io/Mimir/Summary
AI-Generated Summary