이질적으로 사전 훈련된 트랜스포머를 활용한 소자감각-시각 학습의 확장
Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers
September 30, 2024
저자: Lirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He
cs.AI
초록
오늘날 일반적인 로봇 모델을 훈련하는 데 있어 한 가지 장애물은 이질성입니다. 이전 로봇 학습 방법은 종종 한 가지 구현체에 대한 한 가지 작업을 훈련하기 위해 데이터를 수집하는데, 이는 비용이 많이 들며 오버피팅에 취약합니다. 본 연구는 다양한 구현체 및 규모에서 로봇 데이터를 활용한 이질적 사전 훈련을 통해 정책 표현 학습 문제를 연구합니다. 우리는 이질적으로 사전 훈련된 트랜스포머(HPT)를 제안합니다. HPT는 정책 신경망의 큰 공유 가능한 트렁크를 사전 훈련하여 작업 및 구현체에 중립적인 공유 표현을 학습합니다. 이 일반적인 아키텍처는 서로 다른 구현체로부터의 구체적인 자세 및 시각 입력을 짧은 토큰 순서로 정렬하고, 그러한 토큰을 처리하여 다양한 작업에 대한 로봇 제어로 매핑합니다. 최근 대규모 다양한 구현체의 실제 로봇 데이터셋 및 시뮬레이션, 배치된 로봇 및 인간 비디오 데이터셋을 활용하여 우리는 이질성을 가로지르며 정책 사전 훈련을 조사합니다. 우리는 52개의 데이터셋에 대한 훈련 목표의 확장 행동을 조사하는 실험을 실시합니다. HPT는 여러 기준 모델을 능가하며, 다수의 시뮬레이터 벤치마크 및 실제 환경에서 보이지 않는 작업에 대해 세밀하게 튜닝된 정책 성능을 20% 이상 향상시킵니다. 코드 및 비디오는 프로젝트 웹사이트(https://liruiw.github.io/hpt/)에서 확인할 수 있습니다.
English
One of the roadblocks for training generalist robotic models today is
heterogeneity. Previous robot learning methods often collect data to train with
one specific embodiment for one task, which is expensive and prone to
overfitting. This work studies the problem of learning policy representations
through heterogeneous pre-training on robot data across different embodiments
and tasks at scale. We propose Heterogeneous Pre-trained Transformers (HPT),
which pre-train a large, shareable trunk of a policy neural network to learn a
task and embodiment agnostic shared representation. This general architecture
aligns the specific proprioception and vision inputs from distinct embodiments
to a short sequence of tokens and then processes such tokens to map to control
robots for different tasks. Leveraging the recent large-scale multi-embodiment
real-world robotic datasets as well as simulation, deployed robots, and human
video datasets, we investigate pre-training policies across heterogeneity. We
conduct experiments to investigate the scaling behaviors of training
objectives, to the extent of 52 datasets. HPTs outperform several baselines and
enhance the fine-tuned policy performance by over 20% on unseen tasks in
multiple simulator benchmarks and real-world settings. See the project website
(https://liruiw.github.io/hpt/) for code and videos.Summary
AI-Generated Summary