オブジェクトを生み出す:3Dオブジェクトからの4D生成
Bringing Objects to Life: 4D generation from 3D objects
December 29, 2024
著者: Ohad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
cs.AI
要旨
最近の生成モデリングの進歩により、テキストプロンプトで制御される4Dコンテンツ(動く3Dオブジェクト)の作成が可能となりました。4D生成は、仮想世界、メディア、ゲームなどのアプリケーションにおいて大きな潜在能力を持っていますが、既存の手法は生成されたコンテンツの外観やジオメトリに対する制御が限られています。本研究では、ユーザー提供の3Dオブジェクトをアニメーション化する手法を紹介し、テキストプロンプトによって4D生成をガイドすることで、元のオブジェクトのアイデンティティを維持しながらカスタムアニメーションを可能にします。まず、3Dメッシュを入力オブジェクトの視覚的属性を保持する「静的」4Dニューラル輝度場(NeRF)に変換します。その後、テキストによって駆動される画像からビデオへの拡散モデルを使用してオブジェクトをアニメーション化します。動きのリアリズムを向上させるために、リアルな動きを促進するための視点選択プロトコルと、関連領域に最適化を焦点化するために注意マップを活用するマスク付きスコア蒸留サンプリング(SDS)損失を導入します。我々は、モデルの時間的一貫性、プロンプトへの遵守、視覚的忠実度に関して評価を行い、LPIPSスコアを使用して測定されたアイデンティティの保存において最大3倍の向上を達成し、視覚的品質と動的コンテンツのバランスを効果的に実現することができることを発見しました。
English
Recent advancements in generative modeling now enable the creation of 4D
content (moving 3D objects) controlled with text prompts. 4D generation has
large potential in applications like virtual worlds, media, and gaming, but
existing methods provide limited control over the appearance and geometry of
generated content. In this work, we introduce a method for animating
user-provided 3D objects by conditioning on textual prompts to guide 4D
generation, enabling custom animations while maintaining the identity of the
original object. We first convert a 3D mesh into a ``static" 4D Neural Radiance
Field (NeRF) that preserves the visual attributes of the input object. Then, we
animate the object using an Image-to-Video diffusion model driven by text. To
improve motion realism, we introduce an incremental viewpoint selection
protocol for sampling perspectives to promote lifelike movement and a masked
Score Distillation Sampling (SDS) loss, which leverages attention maps to focus
optimization on relevant regions. We evaluate our model in terms of temporal
coherence, prompt adherence, and visual fidelity and find that our method
outperforms baselines that are based on other approaches, achieving up to
threefold improvements in identity preservation measured using LPIPS scores,
and effectively balancing visual quality with dynamic content.Summary
AI-Generated Summary