Mimir: Miglioramento dei Modelli di Diffusione Video per una Precisa Comprensione del Testo

Abstract

Il testo funge da segnale di controllo chiave nella generazione di video a causa della sua natura narrativa. Per rendere le descrizioni testuali in sequenze video, i modelli attuali di diffusione video prendono in prestito le caratteristiche dagli encoder di testo ma faticano con una limitata comprensione del testo. Il recente successo dei grandi modelli linguistici (LLM) mette in mostra il potere dei transformer basati solo sul decoder, che offre tre chiari vantaggi per la generazione testo-video (T2V), ovvero una precisa comprensione del testo grazie alla scalabilità superiore, l'immaginazione oltre il testo di input abilitata dalla previsione del token successivo e la flessibilità nel privilegiare gli interessi dell'utente attraverso l'ottimizzazione delle istruzioni. Tuttavia, il divario nella distribuzione delle caratteristiche emergente dai due diversi paradigmi di modellazione del testo ostacola l'uso diretto dei LLM nei modelli T2V consolidati. Questo lavoro affronta questa sfida con Mimir, un framework di addestramento end-to-end che presenta un fuser di token attentamente progettato per armonizzare le uscite dagli encoder di testo e dai LLM. Tale progettazione consente al modello T2V di sfruttare appieno le conoscenze pregresse sui video apprese, capitalizzando al contempo sulle capacità relative al testo dei LLM. Estesi risultati quantitativi e qualitativi dimostrano l'efficacia di Mimir nella generazione di video di alta qualità con un'eccellente comprensione del testo, specialmente nel trattare brevi didascalie e gestire movimenti dinamici. Pagina del progetto: https://lucaria-academy.github.io/Mimir/

English

Text serves as the key control signal in video generation due to its narrative nature. To render text descriptions into video clips, current video diffusion models borrow features from text encoders yet struggle with limited text comprehension. The recent success of large language models (LLMs) showcases the power of decoder-only transformers, which offers three clear benefits for text-to-video (T2V) generation, namely, precise text understanding resulting from the superior scalability, imagination beyond the input text enabled by next token prediction, and flexibility to prioritize user interests through instruction tuning. Nevertheless, the feature distribution gap emerging from the two different text modeling paradigms hinders the direct use of LLMs in established T2V models. This work addresses this challenge with Mimir, an end-to-end training framework featuring a carefully tailored token fuser to harmonize the outputs from text encoders and LLMs. Such a design allows the T2V model to fully leverage learned video priors while capitalizing on the text-related capability of LLMs. Extensive quantitative and qualitative results demonstrate the effectiveness of Mimir in generating high-quality videos with excellent text comprehension, especially when processing short captions and managing shifting motions. Project page: https://lucaria-academy.github.io/Mimir/

Mimir: Miglioramento dei Modelli di Diffusione Video per una Precisa Comprensione del Testo

Mimir: Improving Video Diffusion Models for Precise Text Understanding

Abstract

Summary

Support