Suivi gaussien 3D dynamique pour la modélisation des dynamiques neuronales basée sur les graphes
Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling
October 24, 2024
Auteurs: Mingtong Zhang, Kaifeng Zhang, Yunzhu Li
cs.AI
Résumé
Les vidéos de robots interagissant avec des objets codent des informations riches sur la dynamique des objets. Cependant, les approches existantes de prédiction vidéo ne tiennent généralement pas compte explicitement des informations 3D des vidéos, telles que les actions du robot et les états 3D des objets, limitant leur utilisation dans les applications robotiques du monde réel. Dans ce travail, nous introduisons un cadre pour apprendre la dynamique des objets directement à partir de vidéos RGB multi-vues en tenant compte explicitement des trajectoires d'actions du robot et de leurs effets sur la dynamique de la scène. Nous utilisons la représentation gaussienne 3D du Splatting gaussien 3D (3DGS) pour entraîner un modèle de dynamique basé sur des particules en utilisant des Réseaux Neuronaux Graphiques. Ce modèle opère sur des particules de contrôle clairsemées échantillonnées à partir des reconstructions gaussiennes 3D suivies de manière dense. En apprenant le modèle de dynamique neuronale sur des données d'interaction robotique hors ligne, notre méthode peut prédire les mouvements des objets sous différentes configurations initiales et des actions de robot non vues. Les transformations 3D des Gaussiennes peuvent être interpolées à partir des mouvements des particules de contrôle, permettant le rendu des états futurs prédits des objets et atteignant une prédiction vidéo conditionnée par l'action. Le modèle de dynamique peut également être appliqué à des cadres de planification basés sur des modèles pour des tâches de manipulation d'objets. Nous menons des expériences sur divers types de matériaux déformables, y compris des cordes, des vêtements et des peluches, démontrant la capacité de notre cadre à modéliser des formes et des dynamiques complexes. Notre page de projet est disponible sur https://gs-dynamics.github.io.
English
Videos of robots interacting with objects encode rich information about the
objects' dynamics. However, existing video prediction approaches typically do
not explicitly account for the 3D information from videos, such as robot
actions and objects' 3D states, limiting their use in real-world robotic
applications. In this work, we introduce a framework to learn object dynamics
directly from multi-view RGB videos by explicitly considering the robot's
action trajectories and their effects on scene dynamics. We utilize the 3D
Gaussian representation of 3D Gaussian Splatting (3DGS) to train a
particle-based dynamics model using Graph Neural Networks. This model operates
on sparse control particles downsampled from the densely tracked 3D Gaussian
reconstructions. By learning the neural dynamics model on offline robot
interaction data, our method can predict object motions under varying initial
configurations and unseen robot actions. The 3D transformations of Gaussians
can be interpolated from the motions of control particles, enabling the
rendering of predicted future object states and achieving action-conditioned
video prediction. The dynamics model can also be applied to model-based
planning frameworks for object manipulation tasks. We conduct experiments on
various kinds of deformable materials, including ropes, clothes, and stuffed
animals, demonstrating our framework's ability to model complex shapes and
dynamics. Our project page is available at https://gs-dynamics.github.io.Summary
AI-Generated Summary