객체를 살려내기: 3D 객체로부터의 4D 생성
Bringing Objects to Life: 4D generation from 3D objects
December 29, 2024
저자: Ohad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
cs.AI
초록
최근 발전된 생성 모델링 기술을 통해 이제는 텍스트 프롬프트로 제어되는 4D 콘텐츠(움직이는 3D 객체)를 생성할 수 있습니다. 4D 생성은 가상 세계, 미디어, 게임 등 다양한 응용 분야에서 큰 잠재력을 가지고 있지만, 기존 방법은 생성된 콘텐츠의 외관과 기하에 대한 제어를 제한합니다. 본 연구에서는 사용자가 제공한 3D 객체를 애니메이션화하는 방법을 소개하며, 텍스트 프롬프트를 활용하여 4D 생성을 안내함으로써 원본 객체의 정체성을 유지하면서 사용자 정의 애니메이션을 가능하게 합니다. 먼저, 3D 메쉬를 입력 객체의 시각적 속성을 보존하는 "정적" 4D 신경 방사율 필드(NeRF)로 변환합니다. 그런 다음, 텍스트에 의해 구동되는 이미지-비디오 확산 모델을 사용하여 객체를 애니메이션화합니다. 움직임의 현실성을 향상시키기 위해, 사실적인 움직임을 촉진하기 위해 관점 선택 프로토콜을 도입하고, 관련 영역에 최적화를 집중하기 위해 주의 맵을 활용하는 마스킹된 점수 증류 샘플링(SDS) 손실을 도입합니다. 우리는 시간적 일관성, 프롬프트 준수, 시각적 충실도 측면에서 모델을 평가하고, LPIPS 점수를 사용하여 측정한 정체성 보존에서 최대 3배의 개선을 달성하며 시각적 품질과 동적 콘텐츠 간의 균형을 효과적으로 유지하는 기존 접근 방식을 기반으로 한 기준선을 능가하는 결과를 얻습니다.
English
Recent advancements in generative modeling now enable the creation of 4D
content (moving 3D objects) controlled with text prompts. 4D generation has
large potential in applications like virtual worlds, media, and gaming, but
existing methods provide limited control over the appearance and geometry of
generated content. In this work, we introduce a method for animating
user-provided 3D objects by conditioning on textual prompts to guide 4D
generation, enabling custom animations while maintaining the identity of the
original object. We first convert a 3D mesh into a ``static" 4D Neural Radiance
Field (NeRF) that preserves the visual attributes of the input object. Then, we
animate the object using an Image-to-Video diffusion model driven by text. To
improve motion realism, we introduce an incremental viewpoint selection
protocol for sampling perspectives to promote lifelike movement and a masked
Score Distillation Sampling (SDS) loss, which leverages attention maps to focus
optimization on relevant regions. We evaluate our model in terms of temporal
coherence, prompt adherence, and visual fidelity and find that our method
outperforms baselines that are based on other approaches, achieving up to
threefold improvements in identity preservation measured using LPIPS scores,
and effectively balancing visual quality with dynamic content.Summary
AI-Generated Summary