ChatPaper.aiChatPaper

DynVFX: 동적 콘텐츠로 실제 비디오 보강하기

DynVFX: Augmenting Real Videos with Dynamic Content

February 5, 2025
저자: Danah Yatim, Rafail Fridman, Omer Bar-Tal, Tali Dekel
cs.AI

초록

우리는 실제 세계 비디오에 새롭게 생성된 동적 콘텐츠를 추가하는 방법을 제시합니다. 입력 비디오와 원하는 콘텐츠를 설명하는 간단한 사용자 제공 텍스트 지시를 고려할 때, 우리의 방법은 기존 장면과 자연스럽게 상호 작용하는 동적 객체나 복잡한 장면 효과를 합성합니다. 새로운 콘텐츠의 위치, 외관 및 움직임은 카메라 움직임, 가려짐 및 장면 내 다른 동적 객체와의 상호 작용을 고려하여 원본 영상에 매끄럽게 통합되어 일관되고 현실적인 출력 비디오를 얻습니다. 이를 위해 사전 훈련된 텍스트-비디오 확산 트랜스포머를 활용하여 새로운 콘텐츠를 합성하고 증강된 장면을 자세히 상상하는 데 사전 훈련된 비전 언어 모델을 활용하는 제로샷, 훈련 불필요한 프레임워크를 통해 이루어냅니다. 구체적으로, 우리는 새로운 콘텐츠의 정확한 위치 지정과 매끄러운 통합을 가능하게 하는 주의 메커니즘 내의 특징을 조작하는 새로운 추론 기반 방법을 소개하여 원본 장면의 무결성을 유지합니다. 우리의 방법은 완전히 자동화되어 간단한 사용자 지시만 필요합니다. 우리는 이를 실제 세계 비디오에 적용된 다양한 편집에 대해 효과적으로 증명하며, 카메라 및 객체 움직임을 포함한 다양한 객체와 시나리오를 포괄합니다.
English
We present a method for augmenting real-world videos with newly generated dynamic content. Given an input video and a simple user-provided text instruction describing the desired content, our method synthesizes dynamic objects or complex scene effects that naturally interact with the existing scene over time. The position, appearance, and motion of the new content are seamlessly integrated into the original footage while accounting for camera motion, occlusions, and interactions with other dynamic objects in the scene, resulting in a cohesive and realistic output video. We achieve this via a zero-shot, training-free framework that harnesses a pre-trained text-to-video diffusion transformer to synthesize the new content and a pre-trained Vision Language Model to envision the augmented scene in detail. Specifically, we introduce a novel inference-based method that manipulates features within the attention mechanism, enabling accurate localization and seamless integration of the new content while preserving the integrity of the original scene. Our method is fully automated, requiring only a simple user instruction. We demonstrate its effectiveness on a wide range of edits applied to real-world videos, encompassing diverse objects and scenarios involving both camera and object motion.

Summary

AI-Generated Summary

PDF273February 7, 2025