Dynamisches 3D-Gaußsches Tracking für graphenbasiertes neuronales Dynamikmodellieren.
Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling
October 24, 2024
Autoren: Mingtong Zhang, Kaifeng Zhang, Yunzhu Li
cs.AI
Zusammenfassung
Videos von Robotern, die mit Objekten interagieren, enthalten umfangreiche Informationen über die Dynamik der Objekte. Allerdings berücksichtigen bestehende Ansätze zur Videovorhersage in der Regel nicht explizit die 3D-Informationen aus Videos, wie z.B. Roboteraktionen und die 3D-Zustände der Objekte, was ihren Einsatz in realen robotischen Anwendungen einschränkt. In dieser Arbeit stellen wir ein Framework vor, um die Objektdynamik direkt aus Multi-View RGB-Videos zu lernen, indem wir die Aktionspfade des Roboters und deren Auswirkungen auf die Szenendynamik explizit berücksichtigen. Wir nutzen die 3D-Gaußsche Darstellung des 3D-Gaußschen Splatting (3DGS), um ein partikelbasiertes Dynamikmodell unter Verwendung von Graph-Neuralen Netzwerken zu trainieren. Dieses Modell arbeitet mit spärlichen Steuerpartikeln, die aus den dicht verfolgten 3D-Gaußschen Rekonstruktionen abgetastet wurden. Indem wir das neuronale Dynamikmodell an Offline-Daten zur Roboterinteraktion lernen, kann unsere Methode Objektbewegungen unter verschiedenen Anfangskonfigurationen und unbekannten Roboteraktionen vorhersagen. Die 3D-Transformationen von Gaußschen können aus den Bewegungen der Steuerpartikel interpoliert werden, was die Darstellung vorhergesagter zukünftiger Objektzustände ermöglicht und eine aktionsbedingte Videovorhersage erreicht. Das Dynamikmodell kann auch auf modellbasierte Planungsframeworks für Objektmanipulationstätigkeiten angewendet werden. Wir führen Experimente mit verschiedenen Arten von verformbaren Materialien durch, darunter Seile, Kleidung und Stofftiere, um die Fähigkeit unseres Frameworks zur Modellierung komplexer Formen und Dynamiken zu demonstrieren. Unsere Projektseite ist unter https://gs-dynamics.github.io verfügbar.
English
Videos of robots interacting with objects encode rich information about the
objects' dynamics. However, existing video prediction approaches typically do
not explicitly account for the 3D information from videos, such as robot
actions and objects' 3D states, limiting their use in real-world robotic
applications. In this work, we introduce a framework to learn object dynamics
directly from multi-view RGB videos by explicitly considering the robot's
action trajectories and their effects on scene dynamics. We utilize the 3D
Gaussian representation of 3D Gaussian Splatting (3DGS) to train a
particle-based dynamics model using Graph Neural Networks. This model operates
on sparse control particles downsampled from the densely tracked 3D Gaussian
reconstructions. By learning the neural dynamics model on offline robot
interaction data, our method can predict object motions under varying initial
configurations and unseen robot actions. The 3D transformations of Gaussians
can be interpolated from the motions of control particles, enabling the
rendering of predicted future object states and achieving action-conditioned
video prediction. The dynamics model can also be applied to model-based
planning frameworks for object manipulation tasks. We conduct experiments on
various kinds of deformable materials, including ropes, clothes, and stuffed
animals, demonstrating our framework's ability to model complex shapes and
dynamics. Our project page is available at https://gs-dynamics.github.io.Summary
AI-Generated Summary