ChatPaper.aiChatPaper

DiTCtrl: 튜닝이 필요 없는 멀티 프롬프트 긴 비디오 생성을 위한 멀티 모달 디퓨전 트랜스포머에서 주의 제어 탐구

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

December 24, 2024
저자: Minghong Cai, Xiaodong Cun, Xiaoyu Li, Wenze Liu, Zhaoyang Zhang, Yong Zhang, Ying Shan, Xiangyu Yue
cs.AI

초록

Sora와 유사한 비디오 생성 모델은 Multi-Modal Diffusion Transformer MM-DiT 아키텍처로 놀라운 진전을 이루었습니다. 그러나 현재의 비디오 생성 모델은 주로 단일 프롬프트에 초점을 맞추어, 여러 연속적인 프롬프트로 일관된 장면을 생성하는 데 어려움을 겪고 있어 현실 세계의 동적 시나리오를 더 잘 반영하지 못합니다. 일부 선구적인 연구들은 다중 프롬프트 비디오 생성을 탐구했지만, 엄격한 훈련 데이터 요구, 약한 프롬프트 추종, 비자연스러운 전환 등의 중요한 도전에 직면하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 처음으로 MM-DiT 아키텍처 하에 훈련 없는 다중 프롬프트 비디오 생성 방법인 DiTCtrl을 제안합니다. 우리의 주요 아이디어는 다중 프롬프트 비디오 생성 작업을 부드러운 전환을 가진 시간적 비디오 편집으로 취급하는 것입니다. 이 목표를 달성하기 위해, 우리는 먼저 MM-DiT의 주의 메커니즘을 분석하여, 3D 전체 주의가 UNet과 유사한 확산 모델의 교차/자기 주의 블록과 유사하게 작동함을 발견했습니다. 이를 통해 다중 프롬프트 비디오 생성을 위해 주의 공유를 통해 다른 프롬프트 간의 마스크로 정확한 의미적 제어를 가능하게 합니다. 우리의 신중한 설계를 기반으로, DiTCtrl에 의해 생성된 비디오는 추가 훈련 없이 여러 연속적인 프롬프트를 고려할 때 부드러운 전환과 일관된 객체 움직임을 달성합니다. 게다가, 우리는 다중 프롬프트 비디오 생성의 성능을 평가하기 위해 특별히 설계된 새로운 벤치마크인 MPVBench를 제시합니다. 광범위한 실험 결과, 우리의 방법이 추가 훈련 없이 최첨단 성능을 달성함을 보여줍니다.
English
Sora-like video generation models have achieved remarkable progress with a Multi-Modal Diffusion Transformer MM-DiT architecture. However, the current video generation models predominantly focus on single-prompt, struggling to generate coherent scenes with multiple sequential prompts that better reflect real-world dynamic scenarios. While some pioneering works have explored multi-prompt video generation, they face significant challenges including strict training data requirements, weak prompt following, and unnatural transitions. To address these problems, we propose DiTCtrl, a training-free multi-prompt video generation method under MM-DiT architectures for the first time. Our key idea is to take the multi-prompt video generation task as temporal video editing with smooth transitions. To achieve this goal, we first analyze MM-DiT's attention mechanism, finding that the 3D full attention behaves similarly to that of the cross/self-attention blocks in the UNet-like diffusion models, enabling mask-guided precise semantic control across different prompts with attention sharing for multi-prompt video generation. Based on our careful design, the video generated by DiTCtrl achieves smooth transitions and consistent object motion given multiple sequential prompts without additional training. Besides, we also present MPVBench, a new benchmark specially designed for multi-prompt video generation to evaluate the performance of multi-prompt generation. Extensive experiments demonstrate that our method achieves state-of-the-art performance without additional training.
PDF192December 25, 2024