ChatPaper.aiChatPaper

드림러너: 검소한 세부 이야기 비디오 생성과 검색 증강 모션 적응

DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation

November 25, 2024
저자: Zun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal
cs.AI

초록

스토리텔링 비디오 생성(SVG)은 최근에 등장한 작업으로, 입력 텍스트 스크립트에 설명된 이야기를 일관되게 나타내는 긴 다중 동작, 다중 장면 비디오를 생성하는 것을 목표로 합니다. SVG는 미디어 및 엔터테인먼트 분야에서 다양한 콘텐츠 생성의 가능성을 가지고 있지만, 중요한 도전 과제도 제기됩니다: (1) 객체는 다양한 세밀하고 복잡한 동작을 보여줘야 하며, (2) 여러 객체는 장면 전체에 걸쳐 일관되게 나타나야 하며, (3) 주제는 단일 장면 내에서 매끄러운 전환을 통해 여러 동작이 필요할 수 있습니다. 이러한 도전 과제에 대응하기 위해 우리는 DreamRunner이라는 혁신적인 이야기-비디오 생성 방법을 제안합니다: 먼저, 우리는 대규모 언어 모델(LLM)을 사용하여 입력 스크립트를 구조화하여 대략적인 장면 계획 및 세밀한 객체 수준의 레이아웃 및 동작 계획을 용이하게 합니다. 그 다음, DreamRunner은 검색 증강 테스트 시간 적응을 제시하여 각 장면의 객체에 대한 목표 동작 사전을 캡처하여, 검색된 비디오를 기반으로 다양한 동작 사용자 정의를 지원함으로써 복잡한 스크립트된 동작을 갖는 새로운 비디오 생성을 용이하게 합니다. 마지막으로, 우리는 세밀한 객체 동작 바인딩과 프레임별 의미적 제어를 위한 혁신적인 공간-시간 영역 기반 3D 주의 및 사전 주입 모듈 SR3AI를 제안합니다. 우리는 DreamRunner을 다양한 SVG 기준선과 비교하여, 캐릭터 일관성, 텍스트 정렬 및 부드러운 전환에서 최신 기술 성능을 보여줍니다. 게다가, DreamRunner은 T2V-ComBench에서 합성 텍스트-비디오 생성에서 강력한 세밀한 조건 따르기 능력을 나타내며, 기준선을 크게 능가합니다. 마지막으로, 우리는 DreamRunner의 강력한 다중 객체 상호작용 생성 능력을 질적 예시를 통해 검증합니다.
English
Storytelling video generation (SVG) has recently emerged as a task to create long, multi-motion, multi-scene videos that consistently represent the story described in the input text script. SVG holds great potential for diverse content creation in media and entertainment; however, it also presents significant challenges: (1) objects must exhibit a range of fine-grained, complex motions, (2) multiple objects need to appear consistently across scenes, and (3) subjects may require multiple motions with seamless transitions within a single scene. To address these challenges, we propose DreamRunner, a novel story-to-video generation method: First, we structure the input script using a large language model (LLM) to facilitate both coarse-grained scene planning as well as fine-grained object-level layout and motion planning. Next, DreamRunner presents retrieval-augmented test-time adaptation to capture target motion priors for objects in each scene, supporting diverse motion customization based on retrieved videos, thus facilitating the generation of new videos with complex, scripted motions. Lastly, we propose a novel spatial-temporal region-based 3D attention and prior injection module SR3AI for fine-grained object-motion binding and frame-by-frame semantic control. We compare DreamRunner with various SVG baselines, demonstrating state-of-the-art performance in character consistency, text alignment, and smooth transitions. Additionally, DreamRunner exhibits strong fine-grained condition-following ability in compositional text-to-video generation, significantly outperforming baselines on T2V-ComBench. Finally, we validate DreamRunner's robust ability to generate multi-object interactions with qualitative examples.

Summary

AI-Generated Summary

PDF192November 26, 2024