VideoGen-of-Thought: 다중 샷 비디오 생성을 위한 협업 프레임워크
VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation
December 3, 2024
저자: Mingzhe Zheng, Yongqi Xu, Haojian Huang, Xuran Ma, Yexin Liu, Wenjie Shu, Yatian Pang, Feilong Tang, Qifeng Chen, Harry Yang, Ser-Nam Lim
cs.AI
초록
현재의 비디오 생성 모델은 짧은 클립을 생성하는 데 뛰어나지만 여전히 여러 장면으로 이루어진 영화와 같은 비디오를 만드는 데 어려움을 겪고 있습니다. 대규모 데이터로 훈련된 기존 모델은 풍부한 계산 자원을 바탕으로 훈련되었지만 종종 단일 샷 목표로 훈련되어 일관된 논리적인 스토리와 시각적 일관성을 유지하는 데 부족함이 불가피합니다. 이에 우리는 VideoGen-of-Thought (VGoT)를 제안합니다. 이는 협력적이고 훈련이 필요 없는 아키텍처로, 특히 다중 샷 비디오 생성을 위해 설계되었습니다. VGoT는 다음과 같은 세 가지 목표를 갖고 설계되었습니다. 다중 샷 비디오 생성: 비디오 생성 과정을 구조화된 모듈 시퀀스로 나누어 (1) 스크립트 생성, (2) 키프레임 생성, (3) 샷 수준 비디오 생성 및 (4) 일관된 다중 샷 출력을 보장하는 스무딩 메커니즘을 포함합니다. 합리적인 서술 디자인: 영화 시나리오 작성에서 영감을 받은 우리의 프롬프트 생성 방식은 논리적 일관성, 캐릭터 발전, 전체 비디오에 걸쳐 서술 흐름을 보장하기 위해 다섯 가지 주요 영역을 포함합니다. 샷 간 일관성: 서술에서 자동으로 생성된 캐릭터 특성을 유지하는 ID 임베딩을 활용하여 시간적 및 신원 일관성을 보장합니다. 또한 인접한 샷의 잠재적 특징을 효과적으로 결합하여 부드러운 전환을 유지하고 비디오 전체에서 시각적 일관성을 유지하는 재설정 경계를 통합하는 샷 간 스무딩 메커니즘을 통합합니다. 실험 결과 VGoT가 고품질, 일관된 다중 샷 비디오를 생성하는 데 기존 비디오 생성 방법을 능가함을 보여줍니다.
English
Current video generation models excel at generating short clips but still
struggle with creating multi-shot, movie-like videos. Existing models trained
on large-scale data on the back of rich computational resources are
unsurprisingly inadequate for maintaining a logical storyline and visual
consistency across multiple shots of a cohesive script since they are often
trained with a single-shot objective. To this end, we propose
VideoGen-of-Thought (VGoT), a collaborative and training-free architecture
designed specifically for multi-shot video generation. VGoT is designed with
three goals in mind as follows. Multi-Shot Video Generation: We divide the
video generation process into a structured, modular sequence, including (1)
Script Generation, which translates a curt story into detailed prompts for each
shot; (2) Keyframe Generation, responsible for creating visually consistent
keyframes faithful to character portrayals; and (3) Shot-Level Video
Generation, which transforms information from scripts and keyframes into shots;
(4) Smoothing Mechanism that ensures a consistent multi-shot output. Reasonable
Narrative Design: Inspired by cinematic scriptwriting, our prompt generation
approach spans five key domains, ensuring logical consistency, character
development, and narrative flow across the entire video. Cross-Shot
Consistency: We ensure temporal and identity consistency by leveraging
identity-preserving (IP) embeddings across shots, which are automatically
created from the narrative. Additionally, we incorporate a cross-shot smoothing
mechanism, which integrates a reset boundary that effectively combines latent
features from adjacent shots, resulting in smooth transitions and maintaining
visual coherence throughout the video. Our experiments demonstrate that VGoT
surpasses existing video generation methods in producing high-quality,
coherent, multi-shot videos.Summary
AI-Generated Summary