Exploitation des compétences à partir de données antérieures non étiquetées pour une exploration en ligne efficace
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration
October 23, 2024
Auteurs: Max Wilcoxson, Qiyang Li, Kevin Frans, Sergey Levine
cs.AI
Résumé
La pré-entraînement non supervisée a été transformative dans de nombreux domaines supervisés. Cependant, appliquer de telles idées à l'apprentissage par renforcement (RL) présente un défi unique en ce sens que l'ajustement fin ne consiste pas à imiter des données spécifiques à la tâche, mais plutôt à explorer et à localiser la solution par auto-amélioration itérative. Dans ce travail, nous étudions comment les données de trajectoire préalables non étiquetées peuvent être exploitées pour apprendre des stratégies d'exploration efficaces. Alors que les données préalables peuvent être utilisées pour pré-entraîner un ensemble de compétences de bas niveau, ou comme données hors politique supplémentaires pour l'apprentissage en ligne par renforcement, il n'a pas été clair comment combiner ces idées de manière efficace pour l'exploration en ligne. Notre méthode SUPE (Compétences à partir de données préalables non étiquetées pour l'exploration) démontre qu'une combinaison soigneuse de ces idées amplifie leurs avantages. Notre méthode extrait d'abord des compétences de bas niveau en utilisant un autoencodeur variationnel (VAE), puis re-étiquette de manière pseudo les trajectoires non étiquetées en utilisant un modèle de récompense optimiste, transformant les données préalables en exemples de haut niveau pertinents pour la tâche. Enfin, SUPE utilise ces exemples transformés comme données hors politique supplémentaires pour l'apprentissage en ligne par renforcement afin d'apprendre une politique de haut niveau qui compose des compétences de bas niveau pré-entraînées pour explorer efficacement. Nous montrons empiriquement que SUPE surpasse de manière fiable les stratégies précédentes, résolvant avec succès une série de tâches à récompense rare à horizon long. Code : https://github.com/rail-berkeley/supe.
English
Unsupervised pretraining has been transformative in many supervised domains.
However, applying such ideas to reinforcement learning (RL) presents a unique
challenge in that fine-tuning does not involve mimicking task-specific data,
but rather exploring and locating the solution through iterative
self-improvement. In this work, we study how unlabeled prior trajectory data
can be leveraged to learn efficient exploration strategies. While prior data
can be used to pretrain a set of low-level skills, or as additional off-policy
data for online RL, it has been unclear how to combine these ideas effectively
for online exploration. Our method SUPE (Skills from Unlabeled Prior data for
Exploration) demonstrates that a careful combination of these ideas compounds
their benefits. Our method first extracts low-level skills using a variational
autoencoder (VAE), and then pseudo-relabels unlabeled trajectories using an
optimistic reward model, transforming prior data into high-level, task-relevant
examples. Finally, SUPE uses these transformed examples as additional
off-policy data for online RL to learn a high-level policy that composes
pretrained low-level skills to explore efficiently. We empirically show that
SUPE reliably outperforms prior strategies, successfully solving a suite of
long-horizon, sparse-reward tasks. Code: https://github.com/rail-berkeley/supe.Summary
AI-Generated Summary