ChatPaper.aiChatPaper

Loong: 자기 회귀 언어 모델을 사용하여 분 단위 장영상 생성

Loong: Generating Minute-level Long Videos with Autoregressive Language Models

October 3, 2024
저자: Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu
cs.AI

초록

분 단위로 콘텐츠가 풍부한 장편 비디오를 생성하는 것은 바람직하지만 도전적입니다. 자기 회귀형 대형 언어 모델(Large Language Models, LLMs)은 자연어 처리 분야에서 일련의 토큰을 일관되고 긴 시퀀스로 생성하는 데 큰 성공을 거두었지만, 자기 회귀형 LLMs를 활용한 비디오 생성은 몇 초짜리 짧은 비디오를 생성하는 데 그쳐 있습니다. 본 연구에서는 자기 회귀형 LLM 기반 비디오 생성기가 장편 비디오를 생성하는 데 어려움을 겪는 요인에 대해 심층적인 분석을 수행합니다. 관찰과 분석을 기반으로, 우리는 Loong이라는 새로운 자기 회귀형 LLM 기반 비디오 생성기를 제안합니다. 구체적으로, 텍스트 토큰과 비디오 토큰을 자기 회귀형 LLMs를 위한 통합된 시퀀스로 모델링하고 모델을 처음부터 훈련시킵니다. 장비디오 훈련을 위한 손실 불균형 문제를 완화하기 위해 손실 재가중 방식을 적용한 점진적 단계별 훈련을 제안합니다. 또한 비디오 토큰 재인코딩 및 샘플링 전략을 포함한 추론 전략을 조사하여 추론 중 발생하는 오차 누적을 줄입니다. 우리가 제안한 Loong은 10초짜리 비디오에서 훈련을 받을 수 있으며, 결과를 통해 텍스트 프롬프트에 의존한 장시간 비디오를 생성할 수 있음을 입증합니다. 더 많은 샘플은 다음 링크에서 확인할 수 있습니다: https://epiphqny.github.io/Loong-video.
English
It is desirable but challenging to generate content-rich long videos in the scale of minutes. Autoregressive large language models (LLMs) have achieved great success in generating coherent and long sequences of tokens in the domain of natural language processing, while the exploration of autoregressive LLMs for video generation is limited to generating short videos of several seconds. In this work, we conduct a deep analysis of the challenges that prevent autoregressive LLM-based video generators from generating long videos. Based on the observations and analysis, we propose Loong, a new autoregressive LLM-based video generator that can generate minute-long videos. Specifically, we model the text tokens and video tokens as a unified sequence for autoregressive LLMs and train the model from scratch. We propose progressive short-to-long training with a loss re-weighting scheme to mitigate the loss imbalance problem for long video training. We further investigate inference strategies, including video token re-encoding and sampling strategies, to diminish error accumulation during inference. Our proposed Loong can be trained on 10-second videos and be extended to generate minute-level long videos conditioned on text prompts, as demonstrated by the results. More samples are available at: https://epiphqny.github.io/Loong-video.

Summary

AI-Generated Summary

PDF383November 16, 2024