로봇이 로봇을 사전 훈련: 대규모 로봇 데이터셋으로부터의 조작 중심 로봇 표현

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Dataset

October 29, 2024
저자: Guangqi Jiang, Yifei Sun, Tao Huang, Huanyu Li, Yongyuan Liang, Huazhe Xu
cs.AI

초록

시각 표현의 사전 훈련은 로봇 학습의 효율성을 향상시켰습니다. 대규모 도메인 내 로봇 데이터셋의 부족으로 인해, 이전 연구들은 야외에서 촬영된 인간 영상을 사용하여 로봇 시각 표현을 사전 훈련시켰습니다. 유망한 결과에도 불구하고, 인간 영상에서 얻은 표현은 불가피하게 분포 변화에 영향을 받으며 작업 완료에 중요한 동적 정보가 부족합니다. 먼저 다양한 사전 훈련된 표현을 평가하여 하류 로봇 조작 작업과의 상관 관계(즉, 조작 중심성)를 확인했습니다. 흥미로운 점은 "조작 중심성"이 하류 작업에 적용될 때 성공률의 강력한 지표임을 발견했습니다. 이러한 결과를 바탕으로 시각 특징과 조작 작업의 동적 정보(예: 동작 및 자세 정보)를 포착하는 기반 표현 학습 프레임워크인 조작 중심 표현(MCR)을 제안합니다. 구체적으로, DROID 로봇 데이터셋에서 시각 인코더를 사전 훈련하고 로봇 자세 상태 및 동작과 같은 동작 관련 데이터를 활용합니다. 시각 관측을 로봇의 자세 상태-동작 동적과 일치시키는 새로운 대조 손실을 소개하고, 사전 훈련 중 동작을 예측하기 위한 행동 복제(BC) 유사 액터 손실과 시간 대조 손실을 결합합니다. 20가지 작업이 있는 4가지 시뮬레이션 도메인에서의 실험 결과는 MCR이 가장 강력한 기준 방법을 14.8% 능가한다는 것을 확인했습니다. 게다가 MCR은 UR5e 팔을 사용한 데이터 효율적 학습의 성능을 76.9% 향상시킵니다. 프로젝트 웹사이트: https://robots-pretrain-robots.github.io/.
English
The pre-training of visual representations has enhanced the efficiency of robot learning. Due to the lack of large-scale in-domain robotic datasets, prior works utilize in-the-wild human videos to pre-train robotic visual representation. Despite their promising results, representations from human videos are inevitably subject to distribution shifts and lack the dynamics information crucial for task completion. We first evaluate various pre-trained representations in terms of their correlation to the downstream robotic manipulation tasks (i.e., manipulation centricity). Interestingly, we find that the "manipulation centricity" is a strong indicator of success rates when applied to downstream tasks. Drawing from these findings, we propose Manipulation Centric Representation (MCR), a foundation representation learning framework capturing both visual features and the dynamics information such as actions and proprioceptions of manipulation tasks to improve manipulation centricity. Specifically, we pre-train a visual encoder on the DROID robotic dataset and leverage motion-relevant data such as robot proprioceptive states and actions. We introduce a novel contrastive loss that aligns visual observations with the robot's proprioceptive state-action dynamics, combined with a behavior cloning (BC)-like actor loss to predict actions during pre-training, along with a time contrastive loss. Empirical results across 4 simulation domains with 20 tasks verify that MCR outperforms the strongest baseline method by 14.8%. Moreover, MCR boosts the performance of data-efficient learning with a UR5e arm on 3 real-world tasks by 76.9%. Project website: https://robots-pretrain-robots.github.io/.

Summary

AI-Generated Summary

PDF92November 16, 2024