LTX-Video: Difusão Latente de Vídeo em Tempo Real
LTX-Video: Realtime Video Latent Diffusion
December 30, 2024
Autores: Yoav HaCohen, Nisan Chiprut, Benny Brazowski, Daniel Shalem, Dudu Moshe, Eitan Richardson, Eran Levin, Guy Shiran, Nir Zabari, Ori Gordon, Poriya Panet, Sapir Weissbuch, Victor Kulikov, Yaki Bitterman, Zeev Melumian, Ofir Bibi
cs.AI
Resumo
Apresentamos o LTX-Video, um modelo de difusão latente baseado em transformer que adota uma abordagem holística para geração de vídeos, integrando de forma contínua as responsabilidades do Video-VAE e do transformer de remoção de ruído. Ao contrário de métodos existentes, que tratam esses componentes como independentes, o LTX-Video tem como objetivo otimizar a interação entre eles para melhorar a eficiência e a qualidade. Em seu núcleo, há um Video-VAE cuidadosamente projetado que alcança uma alta taxa de compressão de 1:192, com redução espaciotemporal de 32 x 32 x 8 pixels por token, possibilitada pela realocação da operação de divisão em patches da entrada do transformer para a entrada do VAE. Operar nesse espaço latente altamente comprimido permite que o transformer execute de forma eficiente a autoatenção espaciotemporal completa, o que é essencial para gerar vídeos de alta resolução com consistência temporal. No entanto, a alta compressão limita inerentemente a representação de detalhes finos. Para lidar com isso, nosso decodificador VAE é encarregado tanto da conversão latente para pixel quanto da etapa final de remoção de ruído, produzindo o resultado limpo diretamente no espaço de pixels. Essa abordagem preserva a capacidade de gerar detalhes finos sem incorrer no custo de tempo de execução de um módulo separado de aumento de resolução. Nosso modelo suporta diversos casos de uso, incluindo geração de texto para vídeo e imagem para vídeo, com ambas as capacidades treinadas simultaneamente. Ele alcança uma geração mais rápida que em tempo real, produzindo 5 segundos de vídeo a 24 fps e resolução de 768x512 em apenas 2 segundos em uma GPU Nvidia H100, superando todos os modelos existentes de escala similar. O código-fonte e os modelos pré-treinados estão disponíveis publicamente, estabelecendo um novo referencial para geração de vídeos acessível e escalável.
English
We introduce LTX-Video, a transformer-based latent diffusion model that
adopts a holistic approach to video generation by seamlessly integrating the
responsibilities of the Video-VAE and the denoising transformer. Unlike
existing methods, which treat these components as independent, LTX-Video aims
to optimize their interaction for improved efficiency and quality. At its core
is a carefully designed Video-VAE that achieves a high compression ratio of
1:192, with spatiotemporal downscaling of 32 x 32 x 8 pixels per token, enabled
by relocating the patchifying operation from the transformer's input to the
VAE's input. Operating in this highly compressed latent space enables the
transformer to efficiently perform full spatiotemporal self-attention, which is
essential for generating high-resolution videos with temporal consistency.
However, the high compression inherently limits the representation of fine
details. To address this, our VAE decoder is tasked with both latent-to-pixel
conversion and the final denoising step, producing the clean result directly in
pixel space. This approach preserves the ability to generate fine details
without incurring the runtime cost of a separate upsampling module. Our model
supports diverse use cases, including text-to-video and image-to-video
generation, with both capabilities trained simultaneously. It achieves
faster-than-real-time generation, producing 5 seconds of 24 fps video at
768x512 resolution in just 2 seconds on an Nvidia H100 GPU, outperforming all
existing models of similar scale. The source code and pre-trained models are
publicly available, setting a new benchmark for accessible and scalable video
generation.Summary
AI-Generated Summary