Through-The-Mask: 画像から動画への生成のためのマスクベースの動き軌跡
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation
January 6, 2025
著者: Guy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak
cs.AI
要旨
私たちは、画像から動画(I2V)の生成というタスクを考えます。これは、静止画像をテキストの説明に基づいてリアルなビデオシーケンスに変換することを含みます。最近の進歩により、写実的な出力が生み出されていますが、特に複数のオブジェクトが存在するシナリオにおいて、正確で一貫したオブジェクトの動きを作成することが難しいことがよくあります。これらの制限に対処するために、私たちは、I2V生成を2段階の構成フレームワークに分解することを提案します:(i)明示的な中間表現生成段階、続いて(ii)この表現に依存するビデオ生成段階。私たちの主要な革新点は、セマンティックなオブジェクト情報と動きの両方を捉えるマスクベースの動き軌跡を中間表現として導入することであり、これにより動きとセマンティクスの表現が表現豊かでコンパクトになります。第2段階で学習された表現を組み込むために、オブジェクトレベルの注意目的を利用します。具体的には、空間的な、オブジェクトごとの、マスクされたクロスアテンション目的を考慮し、対応する潜在空間領域にオブジェクト固有のプロンプトを統合し、マスクされた時空間自己アテンション目的を考慮し、各オブジェクトに対してフレーム間の一貫性を確保します。私たちは、複数のオブジェクトや高い動きのシナリオでの厳しいベンチマークで当社の手法を評価し、提案手法が時間的な一貫性、動きのリアリズム、およびテキストプロンプトの忠実さにおいて最先端の結果を達成することを経験的に示します。さらに、単一オブジェクトおよび複数オブジェクトのI2V生成のための新しい厳しいベンチマークである\benchmark を紹介し、このベンチマークでの当社の手法の優越性を示します。プロジェクトページはhttps://guyyariv.github.io/TTM/ でご覧いただけます。
English
We consider the task of Image-to-Video (I2V) generation, which involves
transforming static images into realistic video sequences based on a textual
description. While recent advancements produce photorealistic outputs, they
frequently struggle to create videos with accurate and consistent object
motion, especially in multi-object scenarios. To address these limitations, we
propose a two-stage compositional framework that decomposes I2V generation
into: (i) An explicit intermediate representation generation stage, followed by
(ii) A video generation stage that is conditioned on this representation. Our
key innovation is the introduction of a mask-based motion trajectory as an
intermediate representation, that captures both semantic object information and
motion, enabling an expressive but compact representation of motion and
semantics. To incorporate the learned representation in the second stage, we
utilize object-level attention objectives. Specifically, we consider a spatial,
per-object, masked-cross attention objective, integrating object-specific
prompts into corresponding latent space regions and a masked spatio-temporal
self-attention objective, ensuring frame-to-frame consistency for each object.
We evaluate our method on challenging benchmarks with multi-object and
high-motion scenarios and empirically demonstrate that the proposed method
achieves state-of-the-art results in temporal coherence, motion realism, and
text-prompt faithfulness. Additionally, we introduce \benchmark, a new
challenging benchmark for single-object and multi-object I2V generation, and
demonstrate our method's superiority on this benchmark. Project page is
available at https://guyyariv.github.io/TTM/.Summary
AI-Generated Summary