Dynamische 3D Gaussische Tracking voor Grafiekgebaseerde Neurale Dynamische Modellering
Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling
October 24, 2024
Auteurs: Mingtong Zhang, Kaifeng Zhang, Yunzhu Li
cs.AI
Samenvatting
Video's van robots die interageren met objecten bevatten rijke informatie over de dynamiek van de objecten. Bestaande benaderingen voor video voorspelling houden echter meestal geen rekening met de 3D-informatie uit video's, zoals robotacties en de 3D-toestanden van objecten, waardoor hun bruikbaarheid in robottoepassingen in de echte wereld beperkt is. In dit werk introduceren we een raamwerk om objectdynamiek rechtstreeks te leren van multi-view RGB-video's door expliciet rekening te houden met de actietrajecten van de robot en hun effecten op de scènedynamiek. We maken gebruik van de 3D Gaussische representatie van 3D Gaussische Splatting (3DGS) om een op deeltjes gebaseerd dynamisch model te trainen met behulp van Grafische Neurale Netwerken. Dit model werkt met schaarse besturingsdeeltjes die zijn gedownsampled van de dichtbij gevolgde 3D Gaussische reconstructies. Door het neurale dynamische model te leren op offline robotinteractiegegevens, kan onze methode objectbewegingen voorspellen onder variërende initiële configuraties en ongeziene robotacties. De 3D-transformaties van Gaussiërs kunnen worden geïnterpoleerd uit de bewegingen van besturingsdeeltjes, waardoor het voorspellen van toekomstige objecttoestanden mogelijk is en het realiseren van actie-geconditioneerde videovoorspelling. Het dynamische model kan ook worden toegepast op modelgebaseerde planningskaders voor objectmanipulatietaken. We voeren experimenten uit op verschillende soorten vervormbare materialen, waaronder touwen, kleding en knuffeldieren, waarbij we de mogelijkheid van ons raamwerk aantonen om complexe vormen en dynamiek te modelleren. Onze projectpagina is beschikbaar op https://gs-dynamics.github.io.
English
Videos of robots interacting with objects encode rich information about the
objects' dynamics. However, existing video prediction approaches typically do
not explicitly account for the 3D information from videos, such as robot
actions and objects' 3D states, limiting their use in real-world robotic
applications. In this work, we introduce a framework to learn object dynamics
directly from multi-view RGB videos by explicitly considering the robot's
action trajectories and their effects on scene dynamics. We utilize the 3D
Gaussian representation of 3D Gaussian Splatting (3DGS) to train a
particle-based dynamics model using Graph Neural Networks. This model operates
on sparse control particles downsampled from the densely tracked 3D Gaussian
reconstructions. By learning the neural dynamics model on offline robot
interaction data, our method can predict object motions under varying initial
configurations and unseen robot actions. The 3D transformations of Gaussians
can be interpolated from the motions of control particles, enabling the
rendering of predicted future object states and achieving action-conditioned
video prediction. The dynamics model can also be applied to model-based
planning frameworks for object manipulation tasks. We conduct experiments on
various kinds of deformable materials, including ropes, clothes, and stuffed
animals, demonstrating our framework's ability to model complex shapes and
dynamics. Our project page is available at https://gs-dynamics.github.io.Summary
AI-Generated Summary