Het benutten van vaardigheden uit ongelabelde eerdere gegevens voor efficiënte online verkenning.
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration
October 23, 2024
Auteurs: Max Wilcoxson, Qiyang Li, Kevin Frans, Sergey Levine
cs.AI
Samenvatting
Ongesuperviseerde vooraftraining heeft een transformerend effect gehad in veel begeleide domeinen. Het toepassen van dergelijke ideeën op reinforcement learning (RL) vormt echter een unieke uitdaging, aangezien fijnafstemming niet inhoudt dat er taakspecifieke gegevens worden nagebootst, maar eerder dat de oplossing wordt verkend en gevonden door middel van iteratieve zelfverbetering. In dit werk bestuderen we hoe ongelabelde voorafgaande trajectgegevens kunnen worden benut om efficiënte verkenningstrategieën te leren. Hoewel voorafgaande gegevens kunnen worden gebruikt om een reeks vaardigheden op laag niveau vooraf te trainen, of als aanvullende off-policy gegevens voor online RL, was het onduidelijk hoe deze ideeën effectief kunnen worden gecombineerd voor online verkenning. Onze methode SUPE (Vaardigheden uit Ongelabelde Voorafgaande gegevens voor Verkenning) toont aan dat een zorgvuldige combinatie van deze ideeën hun voordelen vergroot. Onze methode extrahereert eerst vaardigheden op laag niveau met behulp van een variational autoencoder (VAE), en labelt vervolgens pseudo-ongelabelde trajecten met behulp van een optimistisch beloningsmodel, waarbij voorafgaande gegevens worden omgezet in voorbeelden op hoog niveau die relevant zijn voor de taak. Ten slotte gebruikt SUPE deze getransformeerde voorbeelden als aanvullende off-policy gegevens voor online RL om een beleid op hoog niveau te leren dat vooraf getrainde vaardigheden op laag niveau samenstelt om efficiënt te verkennen. We tonen empirisch aan dat SUPE consequent beter presteert dan eerdere strategieën, en met succes een reeks taken met lange horizon en schaarse beloningen oplost. Code: https://github.com/rail-berkeley/supe.
English
Unsupervised pretraining has been transformative in many supervised domains.
However, applying such ideas to reinforcement learning (RL) presents a unique
challenge in that fine-tuning does not involve mimicking task-specific data,
but rather exploring and locating the solution through iterative
self-improvement. In this work, we study how unlabeled prior trajectory data
can be leveraged to learn efficient exploration strategies. While prior data
can be used to pretrain a set of low-level skills, or as additional off-policy
data for online RL, it has been unclear how to combine these ideas effectively
for online exploration. Our method SUPE (Skills from Unlabeled Prior data for
Exploration) demonstrates that a careful combination of these ideas compounds
their benefits. Our method first extracts low-level skills using a variational
autoencoder (VAE), and then pseudo-relabels unlabeled trajectories using an
optimistic reward model, transforming prior data into high-level, task-relevant
examples. Finally, SUPE uses these transformed examples as additional
off-policy data for online RL to learn a high-level policy that composes
pretrained low-level skills to explore efficiently. We empirically show that
SUPE reliably outperforms prior strategies, successfully solving a suite of
long-horizon, sparse-reward tasks. Code: https://github.com/rail-berkeley/supe.Summary
AI-Generated Summary