ChatPaper.aiChatPaper

매직 1대1: 1분 이내에 1분 길이의 비디오 클립 생성하기

Magic 1-For-1: Generating One Minute Video Clips within One Minute

February 11, 2025
저자: Hongwei Yi, Shitong Shao, Tian Ye, Jiantong Zhao, Qingyu Yin, Michael Lingelbach, Li Yuan, Yonghong Tian, Enze Xie, Daquan Zhou
cs.AI

초록

본 기술 보고서에서는 최적화된 메모리 소비 및 추론 대기 시간을 갖춘 효율적인 비디오 생성 모델인 Magic 1-For-1 (Magic141)을 제안합니다. 핵심 아이디어는 간단합니다: 텍스트에서 비디오 생성 작업을 확산 단계 증류를 위해 두 개의 별도로 더 쉬운 작업, 즉 텍스트에서 이미지 생성 및 이미지에서 비디오 생성으로 분해하는 것입니다. 동일한 최적화 알고리즘을 사용하여 이미지에서 비디오 작업이 실제로 텍스트에서 비디오 작업보다 수렴하기 쉽다는 것을 확인합니다. 또한 이미지에서 비디오 (I2V) 모델의 훈련 계산 비용을 줄이기 위해 세 가지 측면에서 최적화 기법을 탐구합니다: 1) 다중 모달 사전 조건 주입을 사용하여 모델 수렴 속도를 높임; 2) 적대적 단계 증류를 적용하여 추론 대기 시간을 단축하고; 3) 매개변수 희소화로 추론 메모리 비용을 최적화합니다. 이러한 기술을 사용하여 3초 내에 5초 길이의 비디오 클립을 생성할 수 있습니다. 테스트 시간 슬라이딩 창을 적용하여 1분 길이의 비디오를 1분 내에 생성할 수 있으며 시각적 품질과 동적 움직임이 크게 향상되어 평균적으로 1초 비디오 클립 생성에 1초 미만이 소요됩니다. 확산 단계 증류 중에 계산 비용과 비디오 품질 사이의 최적의 균형을 찾기 위해 일련의 초기 탐색을 수행하고, 이 모델이 오픈 소스 탐색을 위한 좋은 기반 모델이 될 수 있기를 희망합니다. 코드 및 모델 가중치는 https://github.com/DA-Group-PKU/Magic-1-For-1에서 사용할 수 있습니다.
English
In this technical report, we present Magic 1-For-1 (Magic141), an efficient video generation model with optimized memory consumption and inference latency. The key idea is simple: factorize the text-to-video generation task into two separate easier tasks for diffusion step distillation, namely text-to-image generation and image-to-video generation. We verify that with the same optimization algorithm, the image-to-video task is indeed easier to converge over the text-to-video task. We also explore a bag of optimization tricks to reduce the computational cost of training the image-to-video (I2V) models from three aspects: 1) model convergence speedup by using a multi-modal prior condition injection; 2) inference latency speed up by applying an adversarial step distillation, and 3) inference memory cost optimization with parameter sparsification. With those techniques, we are able to generate 5-second video clips within 3 seconds. By applying a test time sliding window, we are able to generate a minute-long video within one minute with significantly improved visual quality and motion dynamics, spending less than 1 second for generating 1 second video clips on average. We conduct a series of preliminary explorations to find out the optimal tradeoff between computational cost and video quality during diffusion step distillation and hope this could be a good foundation model for open-source explorations. The code and the model weights are available at https://github.com/DA-Group-PKU/Magic-1-For-1.

Summary

AI-Generated Summary

PDF324February 12, 2025