Les robots pré-entraînent les robots : Représentation robotique centrée sur la manipulation à partir d'un ensemble de données de robots à grande échelle

Résumé

La pré-formation des représentations visuelles a amélioré l'efficacité de l'apprentissage des robots. En raison du manque de grands ensembles de données robotiques de domaine, les travaux antérieurs utilisent des vidéos humaines "in-the-wild" pour préformer la représentation visuelle des robots. Malgré leurs résultats prometteurs, les représentations issues des vidéos humaines sont inévitablement soumises à des décalages de distribution et manquent d'informations dynamiques cruciales pour l'achèvement des tâches. Nous évaluons d'abord diverses représentations pré-entraînées en termes de leur corrélation avec les tâches de manipulation robotique en aval (c'est-à-dire la centralité de la manipulation). Fait intéressant, nous constatons que la "centralité de la manipulation" est un indicateur fort des taux de réussite lorsqu'elle est appliquée aux tâches en aval. S'appuyant sur ces résultats, nous proposons la Représentation Centrée sur la Manipulation (MCR), un cadre d'apprentissage de représentation fondamental capturant à la fois les caractéristiques visuelles et les informations dynamiques telles que les actions et les proprioceptions des tâches de manipulation pour améliorer la centralité de la manipulation. Plus précisément, nous pré-entraînons un codeur visuel sur l'ensemble de données robotiques DROID et exploitons des données pertinentes pour le mouvement telles que les états proprioceptifs du robot et les actions. Nous introduisons une nouvelle perte contrastive qui aligne les observations visuelles avec la dynamique état-action proprioceptive du robot, combinée avec une perte d'acteur de type clonage de comportement (BC) pour prédire les actions lors de la pré-formation, ainsi qu'une perte contrastive temporelle. Les résultats empiriques sur 4 domaines de simulation avec 20 tâches confirment que MCR surpasse la méthode de référence la plus forte de 14,8%. De plus, MCR améliore les performances de l'apprentissage efficace des données avec un bras UR5e sur 3 tâches réelles de 76,9%. Site Web du projet : https://robots-pretrain-robots.github.io/.

English

The pre-training of visual representations has enhanced the efficiency of robot learning. Due to the lack of large-scale in-domain robotic datasets, prior works utilize in-the-wild human videos to pre-train robotic visual representation. Despite their promising results, representations from human videos are inevitably subject to distribution shifts and lack the dynamics information crucial for task completion. We first evaluate various pre-trained representations in terms of their correlation to the downstream robotic manipulation tasks (i.e., manipulation centricity). Interestingly, we find that the "manipulation centricity" is a strong indicator of success rates when applied to downstream tasks. Drawing from these findings, we propose Manipulation Centric Representation (MCR), a foundation representation learning framework capturing both visual features and the dynamics information such as actions and proprioceptions of manipulation tasks to improve manipulation centricity. Specifically, we pre-train a visual encoder on the DROID robotic dataset and leverage motion-relevant data such as robot proprioceptive states and actions. We introduce a novel contrastive loss that aligns visual observations with the robot's proprioceptive state-action dynamics, combined with a behavior cloning (BC)-like actor loss to predict actions during pre-training, along with a time contrastive loss. Empirical results across 4 simulation domains with 20 tasks verify that MCR outperforms the strongest baseline method by 14.8%. Moreover, MCR boosts the performance of data-efficient learning with a UR5e arm on 3 real-world tasks by 76.9%. Project website: https://robots-pretrain-robots.github.io/.

Les robots pré-entraînent les robots : Représentation robotique centrée sur la manipulation à partir d'un ensemble de données de robots à grande échelle

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Dataset

Résumé

Summary

Support