LTX-Video: Diffusione Latente in Tempo Reale dei Video
LTX-Video: Realtime Video Latent Diffusion
December 30, 2024
Autori: Yoav HaCohen, Nisan Chiprut, Benny Brazowski, Daniel Shalem, Dudu Moshe, Eitan Richardson, Eran Levin, Guy Shiran, Nir Zabari, Ori Gordon, Poriya Panet, Sapir Weissbuch, Victor Kulikov, Yaki Bitterman, Zeev Melumian, Ofir Bibi
cs.AI
Abstract
Introduciamo LTX-Video, un modello di diffusione latente basato su transformer che adotta un approccio olistico alla generazione di video integrando in modo fluido le responsabilità del Video-VAE e del transformer per il denoising. A differenza dei metodi esistenti, che trattano questi componenti come indipendenti, LTX-Video mira a ottimizzare la loro interazione per migliorare efficienza e qualità. Al suo nucleo si trova un Video-VAE attentamente progettato che raggiunge un alto rapporto di compressione di 1:192, con ridimensionamento spazio-temporale di 32 x 32 x 8 pixel per token, reso possibile spostando l'operazione di patchifying dall'input del transformer all'input del VAE. Operando in questo spazio latente altamente compresso, il transformer può eseguire in modo efficiente l'autoattenzione spazio-temporale completa, essenziale per generare video ad alta risoluzione con coerenza temporale. Tuttavia, l'alta compressione limita intrinsecamente la rappresentazione dei dettagli fini. Per affrontare ciò, il nostro decodificatore VAE è incaricato sia della conversione da latente a pixel che dell'ultimo passaggio di denoising, producendo direttamente il risultato pulito nello spazio dei pixel. Questo approccio preserva la capacità di generare dettagli fini senza incorrere nel costo di esecuzione di un modulo di upsampling separato. Il nostro modello supporta diversi casi d'uso, inclusa la generazione di video da testo e da immagine, con entrambe le capacità addestrate contemporaneamente. Raggiunge una generazione più veloce del tempo reale, producendo 5 secondi di video a 24 fps e risoluzione 768x512 in soli 2 secondi su una GPU Nvidia H100, superando tutti i modelli esistenti di dimensioni simili. Il codice sorgente e i modelli preaddestrati sono disponibili pubblicamente, stabilendo un nuovo punto di riferimento per la generazione di video accessibile e scalabile.
English
We introduce LTX-Video, a transformer-based latent diffusion model that
adopts a holistic approach to video generation by seamlessly integrating the
responsibilities of the Video-VAE and the denoising transformer. Unlike
existing methods, which treat these components as independent, LTX-Video aims
to optimize their interaction for improved efficiency and quality. At its core
is a carefully designed Video-VAE that achieves a high compression ratio of
1:192, with spatiotemporal downscaling of 32 x 32 x 8 pixels per token, enabled
by relocating the patchifying operation from the transformer's input to the
VAE's input. Operating in this highly compressed latent space enables the
transformer to efficiently perform full spatiotemporal self-attention, which is
essential for generating high-resolution videos with temporal consistency.
However, the high compression inherently limits the representation of fine
details. To address this, our VAE decoder is tasked with both latent-to-pixel
conversion and the final denoising step, producing the clean result directly in
pixel space. This approach preserves the ability to generate fine details
without incurring the runtime cost of a separate upsampling module. Our model
supports diverse use cases, including text-to-video and image-to-video
generation, with both capabilities trained simultaneously. It achieves
faster-than-real-time generation, producing 5 seconds of 24 fps video at
768x512 resolution in just 2 seconds on an Nvidia H100 GPU, outperforming all
existing models of similar scale. The source code and pre-trained models are
publicly available, setting a new benchmark for accessible and scalable video
generation.Summary
AI-Generated Summary