DreamHOI: 확산 사전을 사용한 3D 인간-객체 상호작용의 주체 주도 생성
DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors
September 12, 2024
저자: Thomas Hanwen Zhu, Ruining Li, Tomas Jakab
cs.AI
초록
우리는 DreamHOI를 제안합니다. 이는 텍스트 설명을 기반으로 3D 인간 모델이 임의의 객체와 현실적으로 상호 작용할 수 있는 제로샷 합성 방법입니다. 실제 세계 객체의 다양한 범주와 기하학, 그리고 다양한 HOI를 포괄하는 데이터셋의 부족으로 이 작업은 복잡합니다. 광범위한 데이터가 필요한 것을 우회하기 위해, 우리는 수십억 개의 이미지 캡션 쌍으로 훈련된 텍스트-이미지 확산 모델을 활용합니다. 이 모델은 이미지 공간 편집을 예측하는 SDS(점수 증류 샘플링) 그래디언트를 최적화하여 스킨된 인간 메시의 조립을 개선합니다. 그러나 이미지 공간 그래디언트를 복잡한 조립 매개변수로 직접 역전파하는 것은 그래디언트의 지역적 특성으로 인해 비효율적입니다. 이를 극복하기 위해, 우리는 스킨된 메시의 이중 암시적-명시적 표현을 소개합니다. 이는 (암시적) 신경 방사형 필드(NeRFs)와 (명시적) 스켈레톤 주도 메시 조립을 결합합니다. 최적화 과정에서, 우리는 암시적 및 명시적 형태 사이를 전환하며, NeRF 생성을 기반으로 메시 조립을 정밀화합니다. 우리의 접근 방식을 검증하기 위해 포괄적인 실험을 통해 효과적으로 현실적인 HOI를 생성하는 능력을 입증합니다.
English
We present DreamHOI, a novel method for zero-shot synthesis of human-object
interactions (HOIs), enabling a 3D human model to realistically interact with
any given object based on a textual description. This task is complicated by
the varying categories and geometries of real-world objects and the scarcity of
datasets encompassing diverse HOIs. To circumvent the need for extensive data,
we leverage text-to-image diffusion models trained on billions of image-caption
pairs. We optimize the articulation of a skinned human mesh using Score
Distillation Sampling (SDS) gradients obtained from these models, which predict
image-space edits. However, directly backpropagating image-space gradients into
complex articulation parameters is ineffective due to the local nature of such
gradients. To overcome this, we introduce a dual implicit-explicit
representation of a skinned mesh, combining (implicit) neural radiance fields
(NeRFs) with (explicit) skeleton-driven mesh articulation. During optimization,
we transition between implicit and explicit forms, grounding the NeRF
generation while refining the mesh articulation. We validate our approach
through extensive experiments, demonstrating its effectiveness in generating
realistic HOIs.Summary
AI-Generated Summary