그래프 기반 신경 역학 모델링을 위한 동적 3D 가우시안 추적
Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling
October 24, 2024
저자: Mingtong Zhang, Kaifeng Zhang, Yunzhu Li
cs.AI
초록
로봇이 물체와 상호 작용하는 비디오는 물체의 역학에 대한 풍부한 정보를 인코딩합니다. 그러나 기존의 비디오 예측 방법은 일반적으로 로봇의 행동과 물체의 3D 상태와 같은 비디오로부터의 3D 정보를 명시적으로 고려하지 않아 실제 세계의 로봇 응용 프로그램에서의 사용을 제한합니다. 본 연구에서는 로봇의 행동 궤적과 그것들이 장면 역학에 미치는 영향을 명시적으로 고려하여 다중 뷰 RGB 비디오로부터 물체 역학을 학습하는 프레임워크를 소개합니다. 우리는 3D 가우시안 스플래팅(3DGS)의 3D 가우시안 표현을 활용하여 그래프 신경망을 사용하여 입자 기반 역학 모델을 훈련시킵니다. 이 모델은 밀도 높게 추적된 3D 가우시안 재구성에서 다운샘플링된 희소 제어 입자에서 작동합니다. 오프라인 로봇 상호 작용 데이터에서 신경 역학 모델을 학습함으로써 우리의 방법은 다양한 초기 구성과 보지 못한 로봇 행동 하에서 물체의 움직임을 예측할 수 있습니다. 가우시안의 3D 변환은 제어 입자의 움직임에서 보간될 수 있어 예측된 미래 물체 상태의 렌더링과 행동 조건부 비디오 예측을 가능하게 합니다. 역학 모델은 또한 물체 조작 작업을 위한 모델 기반 계획 프레임워크에 적용될 수 있습니다. 우리는 로프, 옷, 봉제 동물 등 다양한 종류의 변형 가능한 재료에 대한 실험을 수행하여 복잡한 모양과 역학을 모델링하는 우리의 프레임워크의 능력을 시연합니다. 우리의 프로젝트 페이지는 https://gs-dynamics.github.io에서 확인할 수 있습니다.
English
Videos of robots interacting with objects encode rich information about the
objects' dynamics. However, existing video prediction approaches typically do
not explicitly account for the 3D information from videos, such as robot
actions and objects' 3D states, limiting their use in real-world robotic
applications. In this work, we introduce a framework to learn object dynamics
directly from multi-view RGB videos by explicitly considering the robot's
action trajectories and their effects on scene dynamics. We utilize the 3D
Gaussian representation of 3D Gaussian Splatting (3DGS) to train a
particle-based dynamics model using Graph Neural Networks. This model operates
on sparse control particles downsampled from the densely tracked 3D Gaussian
reconstructions. By learning the neural dynamics model on offline robot
interaction data, our method can predict object motions under varying initial
configurations and unseen robot actions. The 3D transformations of Gaussians
can be interpolated from the motions of control particles, enabling the
rendering of predicted future object states and achieving action-conditioned
video prediction. The dynamics model can also be applied to model-based
planning frameworks for object manipulation tasks. We conduct experiments on
various kinds of deformable materials, including ropes, clothes, and stuffed
animals, demonstrating our framework's ability to model complex shapes and
dynamics. Our project page is available at https://gs-dynamics.github.io.Summary
AI-Generated Summary