Tracciamento gaussiano 3D dinamico per la modellazione dinamica neurale basata su grafi

Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling

October 24, 2024
Autori: Mingtong Zhang, Kaifeng Zhang, Yunzhu Li
cs.AI

Abstract

I video dei robot che interagiscono con gli oggetti codificano informazioni dettagliate sulla dinamica degli oggetti. Tuttavia, gli approcci esistenti alla previsione video di solito non considerano esplicitamente le informazioni tridimensionali dai video, come le azioni del robot e gli stati tridimensionali degli oggetti, limitando il loro utilizzo nelle applicazioni robotiche del mondo reale. In questo lavoro, presentiamo un framework per apprendere la dinamica degli oggetti direttamente da video RGB multi-vista considerando esplicitamente le traiettorie di azione del robot e i loro effetti sulla dinamica della scena. Utilizziamo la rappresentazione gaussiana tridimensionale del Splatting Gaussiano tridimensionale (3DGS) per addestrare un modello di dinamica basato su particelle utilizzando Reti Neurali Grafiche. Questo modello opera su particelle di controllo sparse campionate dalle ricostruzioni gaussiane tridimensionali tracciate in modo denso. Apprendendo il modello di dinamica neurale su dati offline di interazione del robot, il nostro metodo può prevedere i movimenti degli oggetti in diverse configurazioni iniziali e azioni del robot non viste. Le trasformazioni tridimensionali delle gaussiane possono essere interpolate dai movimenti delle particelle di controllo, consentendo la generazione delle previsioni degli stati futuri degli oggetti e raggiungendo la previsione video condizionata all'azione. Il modello di dinamica può anche essere applicato a framework di pianificazione basati su modelli per compiti di manipolazione degli oggetti. Conduciamo esperimenti su vari tipi di materiali deformabili, tra cui corde, vestiti e peluche, dimostrando la capacità del nostro framework di modellare forme complesse e dinamiche. La pagina del nostro progetto è disponibile su https://gs-dynamics.github.io.
English
Videos of robots interacting with objects encode rich information about the objects' dynamics. However, existing video prediction approaches typically do not explicitly account for the 3D information from videos, such as robot actions and objects' 3D states, limiting their use in real-world robotic applications. In this work, we introduce a framework to learn object dynamics directly from multi-view RGB videos by explicitly considering the robot's action trajectories and their effects on scene dynamics. We utilize the 3D Gaussian representation of 3D Gaussian Splatting (3DGS) to train a particle-based dynamics model using Graph Neural Networks. This model operates on sparse control particles downsampled from the densely tracked 3D Gaussian reconstructions. By learning the neural dynamics model on offline robot interaction data, our method can predict object motions under varying initial configurations and unseen robot actions. The 3D transformations of Gaussians can be interpolated from the motions of control particles, enabling the rendering of predicted future object states and achieving action-conditioned video prediction. The dynamics model can also be applied to model-based planning frameworks for object manipulation tasks. We conduct experiments on various kinds of deformable materials, including ropes, clothes, and stuffed animals, demonstrating our framework's ability to model complex shapes and dynamics. Our project page is available at https://gs-dynamics.github.io.

Summary

AI-Generated Summary

PDF62November 16, 2024