Les robots pré-entraînent les robots : Représentation robotique centrée sur la manipulation à partir d'un ensemble de données de robots à grande échelle
Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Dataset
October 29, 2024
Auteurs: Guangqi Jiang, Yifei Sun, Tao Huang, Huanyu Li, Yongyuan Liang, Huazhe Xu
cs.AI
Résumé
La pré-formation des représentations visuelles a amélioré l'efficacité de l'apprentissage des robots. En raison du manque de grands ensembles de données robotiques de domaine, les travaux antérieurs utilisent des vidéos humaines "in-the-wild" pour préformer la représentation visuelle des robots. Malgré leurs résultats prometteurs, les représentations issues des vidéos humaines sont inévitablement soumises à des décalages de distribution et manquent d'informations dynamiques cruciales pour l'achèvement des tâches. Nous évaluons d'abord diverses représentations pré-entraînées en termes de leur corrélation avec les tâches de manipulation robotique en aval (c'est-à-dire la centralité de la manipulation). Fait intéressant, nous constatons que la "centralité de la manipulation" est un indicateur fort des taux de réussite lorsqu'elle est appliquée aux tâches en aval. S'appuyant sur ces résultats, nous proposons la Représentation Centrée sur la Manipulation (MCR), un cadre d'apprentissage de représentation fondamental capturant à la fois les caractéristiques visuelles et les informations dynamiques telles que les actions et les proprioceptions des tâches de manipulation pour améliorer la centralité de la manipulation. Plus précisément, nous pré-entraînons un codeur visuel sur l'ensemble de données robotiques DROID et exploitons des données pertinentes pour le mouvement telles que les états proprioceptifs du robot et les actions. Nous introduisons une nouvelle perte contrastive qui aligne les observations visuelles avec la dynamique état-action proprioceptive du robot, combinée avec une perte d'acteur de type clonage de comportement (BC) pour prédire les actions lors de la pré-formation, ainsi qu'une perte contrastive temporelle. Les résultats empiriques sur 4 domaines de simulation avec 20 tâches confirment que MCR surpasse la méthode de référence la plus forte de 14,8%. De plus, MCR améliore les performances de l'apprentissage efficace des données avec un bras UR5e sur 3 tâches réelles de 76,9%. Site Web du projet : https://robots-pretrain-robots.github.io/.
English
The pre-training of visual representations has enhanced the efficiency of
robot learning. Due to the lack of large-scale in-domain robotic datasets,
prior works utilize in-the-wild human videos to pre-train robotic visual
representation. Despite their promising results, representations from human
videos are inevitably subject to distribution shifts and lack the dynamics
information crucial for task completion. We first evaluate various pre-trained
representations in terms of their correlation to the downstream robotic
manipulation tasks (i.e., manipulation centricity). Interestingly, we find that
the "manipulation centricity" is a strong indicator of success rates when
applied to downstream tasks. Drawing from these findings, we propose
Manipulation Centric Representation (MCR), a foundation representation learning
framework capturing both visual features and the dynamics information such as
actions and proprioceptions of manipulation tasks to improve manipulation
centricity. Specifically, we pre-train a visual encoder on the DROID robotic
dataset and leverage motion-relevant data such as robot proprioceptive states
and actions. We introduce a novel contrastive loss that aligns visual
observations with the robot's proprioceptive state-action dynamics, combined
with a behavior cloning (BC)-like actor loss to predict actions during
pre-training, along with a time contrastive loss. Empirical results across 4
simulation domains with 20 tasks verify that MCR outperforms the strongest
baseline method by 14.8%. Moreover, MCR boosts the performance of
data-efficient learning with a UR5e arm on 3 real-world tasks by 76.9%. Project
website: https://robots-pretrain-robots.github.io/.Summary
AI-Generated Summary