ChatPaper.aiChatPaper

다음 블록 예측: 반자동 회귀 모델링을 통한 비디오 생성

Next Block Prediction: Video Generation via Semi-Autoregressive Modeling

February 11, 2025
저자: Shuhuai Ren, Shuming Ma, Xu Sun, Furu Wei
cs.AI

초록

다음 토큰 예측(NTP)은 자기회귀(AR) 비디오 생성을 위한 사실상의 방법이지만, 최적화되지 않은 단방향 의존성과 느린 추론 속도로 인해 문제가 있습니다. 본 연구에서는 비디오 생성을 위한 반자기회귀(semi-AR) 프레임워크인 다음 블록 예측(NBP)을 제안합니다. 비디오 콘텐츠를 동일한 크기의 블록(예: 행 또는 프레임)으로 균일하게 분해하여, 현재 블록의 각 토큰이 동시에 다음 블록의 해당 토큰을 예측할 수 있도록 하여, 개별 토큰에서 블록으로 생성 단위를 전환합니다. 전통적인 AR 모델링과 달리, 우리의 프레임워크는 각 블록 내에서 양방향 주의를 사용하여 토큰이 더 견고한 공간 의존성을 포착할 수 있도록 합니다. 병렬로 여러 토큰을 예측함으로써, NBP 모델은 생성 단계의 수를 크게 줄여 더 빠르고 효율적인 추론을 이끌어냅니다. 우리의 모델은 UCF101에서 103.3, K600에서 25.5의 FVD 점수를 달성하여, 평균 4.4의 우수성을 보이는 기본 NTP 모델을 능가합니다. 또한, 추론 단계 수가 줄어든 덕분에, NBP 모델은 초당 8.89프레임(128x128 해상도)을 생성하여 11배의 가속을 달성합니다. 또한, 700M에서 3B까지의 모델 규모를 탐색하여, UCF101에서 103.3에서 55.3, K600에서 25.5에서 19.5로 FVD 점수가 크게 개선되는 것을 관찰하여, 접근 방식의 확장성을 입증하였습니다.
English
Next-Token Prediction (NTP) is a de facto approach for autoregressive (AR) video generation, but it suffers from suboptimal unidirectional dependencies and slow inference speed. In this work, we propose a semi-autoregressive (semi-AR) framework, called Next-Block Prediction (NBP), for video generation. By uniformly decomposing video content into equal-sized blocks (e.g., rows or frames), we shift the generation unit from individual tokens to blocks, allowing each token in the current block to simultaneously predict the corresponding token in the next block. Unlike traditional AR modeling, our framework employs bidirectional attention within each block, enabling tokens to capture more robust spatial dependencies. By predicting multiple tokens in parallel, NBP models significantly reduce the number of generation steps, leading to faster and more efficient inference. Our model achieves FVD scores of 103.3 on UCF101 and 25.5 on K600, outperforming the vanilla NTP model by an average of 4.4. Furthermore, thanks to the reduced number of inference steps, the NBP model generates 8.89 frames (128x128 resolution) per second, achieving an 11x speedup. We also explored model scales ranging from 700M to 3B parameters, observing significant improvements in generation quality, with FVD scores dropping from 103.3 to 55.3 on UCF101 and from 25.5 to 19.5 on K600, demonstrating the scalability of our approach.

Summary

AI-Generated Summary

PDF92February 13, 2025