Robot che Pre-allenano Robot: Rappresentazione Robotica Centrata sulla Manipolazione da un Dataset di Robot su Larga Scala

Abstract

Il pre-addestramento delle rappresentazioni visive ha migliorato l'efficienza dell'apprendimento dei robot. A causa della mancanza di ampi set di dati robotici in-domain, i lavori precedenti utilizzano video umani in-the-wild per pre-addestrare la rappresentazione visiva dei robot. Nonostante i risultati promettenti, le rappresentazioni dai video umani sono inevitabilmente soggette a spostamenti di distribuzione e mancano delle informazioni dinamiche cruciali per il completamento dei compiti. Valutiamo innanzitutto varie rappresentazioni pre-addestrate in termini di correlazione con i compiti di manipolazione robotica successivi (cioè, la centralità della manipolazione). Interessantemente, scopriamo che la "centralità della manipolazione" è un forte indicatore dei tassi di successo quando applicata ai compiti successivi. Trasferendo queste scoperte, proponiamo la Rappresentazione Centrica della Manipolazione (MCR), un framework di apprendimento delle rappresentazioni fondamentale che cattura sia le caratteristiche visive che le informazioni dinamiche come azioni e proprietà di manipolazione per migliorare la centralità della manipolazione. In particolare, pre-addestriamo un codificatore visivo sul set di dati robotici DROID e sfruttiamo dati rilevanti per il movimento come gli stati propriocettivi e le azioni del robot. Introduciamo una nuova perdita contrastiva che allinea le osservazioni visive con le dinamiche stato-azione propriocettive del robot, combinata con una perdita di attore simile al clonaggio del comportamento (BC) per prevedere le azioni durante il pre-addestramento, insieme a una perdita contrastiva temporale. I risultati empirici su 4 domini di simulazione con 20 compiti verificano che MCR supera il metodo di base più forte del 14,8%. Inoltre, MCR potenzia le prestazioni dell'apprendimento efficiente dei dati con un braccio UR5e su 3 compiti del mondo reale del 76,9%. Sito web del progetto: https://robots-pretrain-robots.github.io/.

English

The pre-training of visual representations has enhanced the efficiency of robot learning. Due to the lack of large-scale in-domain robotic datasets, prior works utilize in-the-wild human videos to pre-train robotic visual representation. Despite their promising results, representations from human videos are inevitably subject to distribution shifts and lack the dynamics information crucial for task completion. We first evaluate various pre-trained representations in terms of their correlation to the downstream robotic manipulation tasks (i.e., manipulation centricity). Interestingly, we find that the "manipulation centricity" is a strong indicator of success rates when applied to downstream tasks. Drawing from these findings, we propose Manipulation Centric Representation (MCR), a foundation representation learning framework capturing both visual features and the dynamics information such as actions and proprioceptions of manipulation tasks to improve manipulation centricity. Specifically, we pre-train a visual encoder on the DROID robotic dataset and leverage motion-relevant data such as robot proprioceptive states and actions. We introduce a novel contrastive loss that aligns visual observations with the robot's proprioceptive state-action dynamics, combined with a behavior cloning (BC)-like actor loss to predict actions during pre-training, along with a time contrastive loss. Empirical results across 4 simulation domains with 20 tasks verify that MCR outperforms the strongest baseline method by 14.8%. Moreover, MCR boosts the performance of data-efficient learning with a UR5e arm on 3 real-world tasks by 76.9%. Project website: https://robots-pretrain-robots.github.io/.

Robot che Pre-allenano Robot: Rappresentazione Robotica Centrata sulla Manipolazione da un Dataset di Robot su Larga Scala

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Dataset

Abstract

Summary

Support