ChatPaper.aiChatPaper

LTX-비디오: 실시간 비디오 잠재 확산

LTX-Video: Realtime Video Latent Diffusion

December 30, 2024
저자: Yoav HaCohen, Nisan Chiprut, Benny Brazowski, Daniel Shalem, Dudu Moshe, Eitan Richardson, Eran Levin, Guy Shiran, Nir Zabari, Ori Gordon, Poriya Panet, Sapir Weissbuch, Victor Kulikov, Yaki Bitterman, Zeev Melumian, Ofir Bibi
cs.AI

초록

우리는 LTX-Video를 소개합니다. 이는 비디오 생성에 대한 종합적인 접근을 채택하는 transformer 기반의 잠재 확산 모델로, Video-VAE와 노이즈 제거 transformer의 역할을 매끄럽게 통합합니다. 기존 방법과는 달리, 이러한 구성 요소를 독립적으로 처리하는 대신 LTX-Video는 상호 작용을 최적화하여 효율성과 품질을 향상시키기 위해 노력합니다. 핵심은 고안된 Video-VAE로, 1:192의 높은 압축 비율을 달성하며, 32 x 32 x 8 픽셀 당 토큰의 시공간 다운스케일링을 가능케 합니다. 이는 transformer의 입력에서 패치 작업을 VAE의 입력으로 이동함으로써 가능해졌습니다. 이러한 고도로 압축된 잠재 공간에서 작동함으로써 transformer는 고해상도 비디오를 생성하는 데 필수적인 완전한 시공간 셀프 어텐션을 효율적으로 수행할 수 있습니다. 그러나 높은 압축은 세부 사항의 표현을 제한합니다. 이를 해결하기 위해 우리의 VAE 디코더는 잠재에서 픽셀로의 변환과 최종 노이즈 제거 단계를 담당하여 픽셀 공간에서 직접 깨끗한 결과물을 생성합니다. 이 접근 방식은 별도의 업샘플링 모듈의 런타임 비용을 부담하지 않으면서 세부 사항을 생성할 수 있는 능력을 보존합니다. 우리의 모델은 텍스트에서 비디오 및 이미지에서 비디오 생성을 포함한 다양한 사용 사례를 지원하며, 두 기능을 동시에 훈련합니다. Nvidia H100 GPU에서 2초 만에 768x512 해상도의 24 fps 비디오 5초를 생성하여 기존의 유사한 규모의 모든 모델을 능가하는 실시간보다 빠른 생성을 달성했습니다. 소스 코드와 사전 훈련된 모델은 공개적으로 제공되며, 접근 가능하고 확장 가능한 비디오 생성을 위한 새로운 기준을 설정했습니다.
English
We introduce LTX-Video, a transformer-based latent diffusion model that adopts a holistic approach to video generation by seamlessly integrating the responsibilities of the Video-VAE and the denoising transformer. Unlike existing methods, which treat these components as independent, LTX-Video aims to optimize their interaction for improved efficiency and quality. At its core is a carefully designed Video-VAE that achieves a high compression ratio of 1:192, with spatiotemporal downscaling of 32 x 32 x 8 pixels per token, enabled by relocating the patchifying operation from the transformer's input to the VAE's input. Operating in this highly compressed latent space enables the transformer to efficiently perform full spatiotemporal self-attention, which is essential for generating high-resolution videos with temporal consistency. However, the high compression inherently limits the representation of fine details. To address this, our VAE decoder is tasked with both latent-to-pixel conversion and the final denoising step, producing the clean result directly in pixel space. This approach preserves the ability to generate fine details without incurring the runtime cost of a separate upsampling module. Our model supports diverse use cases, including text-to-video and image-to-video generation, with both capabilities trained simultaneously. It achieves faster-than-real-time generation, producing 5 seconds of 24 fps video at 768x512 resolution in just 2 seconds on an Nvidia H100 GPU, outperforming all existing models of similar scale. The source code and pre-trained models are publicly available, setting a new benchmark for accessible and scalable video generation.

Summary

AI-Generated Summary

PDF423January 3, 2025