마스크 기반의 동작 궤적을 통한 이미지에서 비디오로의 생성
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation
January 6, 2025
저자: Guy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak
cs.AI
초록
우리는 이미지에서 비디오(이미지에서 비디오) 생성 작업을 고려합니다. 이 작업은 텍스트 설명을 기반으로 정적 이미지를 현실적인 비디오 시퀀스로 변환하는 것을 포함합니다. 최근의 발전은 사실적인 출력물을 생성하지만, 특히 다중 객체 시나리오에서 정확하고 일관된 객체 움직임을 만드는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해 우리는 이미지에서 비디오 생성을 두 단계로 분해하는 두 단계 합성 프레임워크를 제안합니다: (i) 명시적 중간 표현 생성 단계, 이어서 (ii) 이 표현에 의존하는 비디오 생성 단계. 우리의 주요 혁신은 중간 표현으로 마스크 기반의 움직임 궤적을 도입하는 것입니다. 이는 의미 있는 객체 정보와 움직임을 모두 포착하여 움직임과 의미를 표현하는 표현을 표현합니다. 두 번째 단계에서 학습된 표현을 통합하기 위해 객체 수준의 주의 목표를 활용합니다. 구체적으로, 우리는 공간, 개체별, 마스크된 교차 주의 목표를 고려하며, 개체별 프롬프트를 해당 잠재 공간 영역으로 통합하고, 프레임 간 일관성을 보장하는 마스크된 시공간 자기 주의 목표를 통합합니다. 우리의 방법을 다중 객체 및 고 움직임 시나리오의 어려운 벤치마크에서 평가하고, 제안된 방법이 시간적 일관성, 움직임 현실성 및 텍스트 프롬프트 충실도에서 최첨단 결과를 달성하는 것을 경험적으로 증명합니다. 또한 이미지에서 비디오 생성을 위한 단일 객체 및 다중 객체에 대한 새로운 어려운 벤치마크인 \benchmark를 소개하고, 이 벤치마크에서 우리의 방법의 우수성을 증명합니다. 프로젝트 페이지는 https://guyyariv.github.io/TTM/에서 확인할 수 있습니다.
English
We consider the task of Image-to-Video (I2V) generation, which involves
transforming static images into realistic video sequences based on a textual
description. While recent advancements produce photorealistic outputs, they
frequently struggle to create videos with accurate and consistent object
motion, especially in multi-object scenarios. To address these limitations, we
propose a two-stage compositional framework that decomposes I2V generation
into: (i) An explicit intermediate representation generation stage, followed by
(ii) A video generation stage that is conditioned on this representation. Our
key innovation is the introduction of a mask-based motion trajectory as an
intermediate representation, that captures both semantic object information and
motion, enabling an expressive but compact representation of motion and
semantics. To incorporate the learned representation in the second stage, we
utilize object-level attention objectives. Specifically, we consider a spatial,
per-object, masked-cross attention objective, integrating object-specific
prompts into corresponding latent space regions and a masked spatio-temporal
self-attention objective, ensuring frame-to-frame consistency for each object.
We evaluate our method on challenging benchmarks with multi-object and
high-motion scenarios and empirically demonstrate that the proposed method
achieves state-of-the-art results in temporal coherence, motion realism, and
text-prompt faithfulness. Additionally, we introduce \benchmark, a new
challenging benchmark for single-object and multi-object I2V generation, and
demonstrate our method's superiority on this benchmark. Project page is
available at https://guyyariv.github.io/TTM/.Summary
AI-Generated Summary