ChatPaper.aiChatPaper

이질적으로 사전 훈련된 트랜스포머를 활용한 소자감각-시각 학습의 확장

Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

September 30, 2024
저자: Lirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He
cs.AI

초록

오늘날 일반적인 로봇 모델을 훈련하는 데 있어 한 가지 장애물은 이질성입니다. 이전 로봇 학습 방법은 종종 한 가지 구현체에 대한 한 가지 작업을 훈련하기 위해 데이터를 수집하는데, 이는 비용이 많이 들며 오버피팅에 취약합니다. 본 연구는 다양한 구현체 및 규모에서 로봇 데이터를 활용한 이질적 사전 훈련을 통해 정책 표현 학습 문제를 연구합니다. 우리는 이질적으로 사전 훈련된 트랜스포머(HPT)를 제안합니다. HPT는 정책 신경망의 큰 공유 가능한 트렁크를 사전 훈련하여 작업 및 구현체에 중립적인 공유 표현을 학습합니다. 이 일반적인 아키텍처는 서로 다른 구현체로부터의 구체적인 자세 및 시각 입력을 짧은 토큰 순서로 정렬하고, 그러한 토큰을 처리하여 다양한 작업에 대한 로봇 제어로 매핑합니다. 최근 대규모 다양한 구현체의 실제 로봇 데이터셋 및 시뮬레이션, 배치된 로봇 및 인간 비디오 데이터셋을 활용하여 우리는 이질성을 가로지르며 정책 사전 훈련을 조사합니다. 우리는 52개의 데이터셋에 대한 훈련 목표의 확장 행동을 조사하는 실험을 실시합니다. HPT는 여러 기준 모델을 능가하며, 다수의 시뮬레이터 벤치마크 및 실제 환경에서 보이지 않는 작업에 대해 세밀하게 튜닝된 정책 성능을 20% 이상 향상시킵니다. 코드 및 비디오는 프로젝트 웹사이트(https://liruiw.github.io/hpt/)에서 확인할 수 있습니다.
English
One of the roadblocks for training generalist robotic models today is heterogeneity. Previous robot learning methods often collect data to train with one specific embodiment for one task, which is expensive and prone to overfitting. This work studies the problem of learning policy representations through heterogeneous pre-training on robot data across different embodiments and tasks at scale. We propose Heterogeneous Pre-trained Transformers (HPT), which pre-train a large, shareable trunk of a policy neural network to learn a task and embodiment agnostic shared representation. This general architecture aligns the specific proprioception and vision inputs from distinct embodiments to a short sequence of tokens and then processes such tokens to map to control robots for different tasks. Leveraging the recent large-scale multi-embodiment real-world robotic datasets as well as simulation, deployed robots, and human video datasets, we investigate pre-training policies across heterogeneity. We conduct experiments to investigate the scaling behaviors of training objectives, to the extent of 52 datasets. HPTs outperform several baselines and enhance the fine-tuned policy performance by over 20% on unseen tasks in multiple simulator benchmarks and real-world settings. See the project website (https://liruiw.github.io/hpt/) for code and videos.

Summary

AI-Generated Summary

PDF142November 13, 2024