미탐지 사전 데이터로부터의 기술 활용을 통한 효율적인 온라인 탐사

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

October 23, 2024
저자: Max Wilcoxson, Qiyang Li, Kevin Frans, Sergey Levine
cs.AI

초록

비지도 사전 훈련은 많은 지도 학습 도메인에서 혁신적이었습니다. 그러나 이러한 아이디어를 강화 학습 (RL)에 적용하는 것은 독특한 도전을 제시합니다. 왜냐하면 세밀한 조정은 과제별 데이터를 모방하는 것이 아니라, 반복적인 자가 개선을 통해 탐색하고 해결책을 찾는 것을 포함하기 때문입니다. 본 연구에서는 라벨이 지정되지 않은 이전의 궤적 데이터가 효율적인 탐사 전략을 학습하는 데 어떻게 활용될 수 있는지 연구했습니다. 이전 데이터는 저수준 기술 집합을 사전 훈련하거나 온라인 강화 학습을 위한 추가 오프-폴리시 데이터로 사용될 수 있지만, 이러한 아이디어를 온라인 탐사에 효과적으로 결합하는 방법이 불분명했습니다. SUPE (Skills from Unlabeled Prior data for Exploration)라는 우리의 방법은 이러한 아이디어를 조심스럽게 결합함으로써 이점을 최대화하는 것을 보여줍니다. 우리의 방법은 먼저 변이 오토인코더 (VAE)를 사용하여 저수준 기술을 추출하고, 그런 다음 낙관적 보상 모델을 사용하여 라벨이 지정되지 않은 궤적을 가짜 라벨링하여 이전 데이터를 고수준 작업 관련 예제로 변환합니다. 마지막으로, SUPE는 이러한 변환된 예제를 온라인 RL을 위한 추가 오프-폴리시 데이터로 사용하여 사전 훈련된 저수준 기술을 구성하여 효율적으로 탐사하는 고수준 정책을 학습합니다. 우리는 실험적으로 SUPE가 이전 전략을 신뢰할 수 있게 능가하며, 장기적이고 희소 보상 과제를 성공적으로 해결하는 것을 보여줍니다. 코드: https://github.com/rail-berkeley/supe.
English
Unsupervised pretraining has been transformative in many supervised domains. However, applying such ideas to reinforcement learning (RL) presents a unique challenge in that fine-tuning does not involve mimicking task-specific data, but rather exploring and locating the solution through iterative self-improvement. In this work, we study how unlabeled prior trajectory data can be leveraged to learn efficient exploration strategies. While prior data can be used to pretrain a set of low-level skills, or as additional off-policy data for online RL, it has been unclear how to combine these ideas effectively for online exploration. Our method SUPE (Skills from Unlabeled Prior data for Exploration) demonstrates that a careful combination of these ideas compounds their benefits. Our method first extracts low-level skills using a variational autoencoder (VAE), and then pseudo-relabels unlabeled trajectories using an optimistic reward model, transforming prior data into high-level, task-relevant examples. Finally, SUPE uses these transformed examples as additional off-policy data for online RL to learn a high-level policy that composes pretrained low-level skills to explore efficiently. We empirically show that SUPE reliably outperforms prior strategies, successfully solving a suite of long-horizon, sparse-reward tasks. Code: https://github.com/rail-berkeley/supe.

Summary

AI-Generated Summary

PDF42November 16, 2024