Sfruttare le competenze da dati precedenti non etichettati per un'esplorazione online efficiente
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration
October 23, 2024
Autori: Max Wilcoxson, Qiyang Li, Kevin Frans, Sergey Levine
cs.AI
Abstract
Il preaddestramento non supervisionato ha avuto un impatto trasformativo in molti ambiti supervisionati. Tuttavia, applicare tali concetti al reinforcement learning (RL) presenta una sfida unica in quanto il fine-tuning non comporta la mimica di dati specifici del compito, ma piuttosto l'esplorazione e la individuazione della soluzione attraverso un auto-miglioramento iterativo. In questo lavoro, studiamo come i dati di traiettoria precedenti non etichettati possano essere sfruttati per apprendere strategie di esplorazione efficienti. Mentre i dati precedenti possono essere utilizzati per preaddestrare un insieme di abilità a basso livello, o come dati off-policy aggiuntivi per il RL online, non è stato chiaro come combinare efficacemente queste idee per l'esplorazione online. Il nostro metodo SUPE (Skills from Unlabeled Prior data for Exploration) dimostra che una combinazione attenta di queste idee compone i loro benefici. Il nostro metodo estrae prima abilità a basso livello utilizzando un variational autoencoder (VAE), e poi pseudo-etichetta le traiettorie non etichettate utilizzando un modello di ricompensa ottimista, trasformando i dati precedenti in esempi di alto livello rilevanti per il compito. Infine, SUPE utilizza questi esempi trasformati come dati off-policy aggiuntivi per il RL online per apprendere una politica di alto livello che compone abilità a basso livello preaddestrate per esplorare in modo efficiente. Dimostriamo empiricamente che SUPE supera in modo affidabile le strategie precedenti, risolvendo con successo una serie di compiti a lungo termine e a ricompensa scarsa. Codice: https://github.com/rail-berkeley/supe.
English
Unsupervised pretraining has been transformative in many supervised domains.
However, applying such ideas to reinforcement learning (RL) presents a unique
challenge in that fine-tuning does not involve mimicking task-specific data,
but rather exploring and locating the solution through iterative
self-improvement. In this work, we study how unlabeled prior trajectory data
can be leveraged to learn efficient exploration strategies. While prior data
can be used to pretrain a set of low-level skills, or as additional off-policy
data for online RL, it has been unclear how to combine these ideas effectively
for online exploration. Our method SUPE (Skills from Unlabeled Prior data for
Exploration) demonstrates that a careful combination of these ideas compounds
their benefits. Our method first extracts low-level skills using a variational
autoencoder (VAE), and then pseudo-relabels unlabeled trajectories using an
optimistic reward model, transforming prior data into high-level, task-relevant
examples. Finally, SUPE uses these transformed examples as additional
off-policy data for online RL to learn a high-level policy that composes
pretrained low-level skills to explore efficiently. We empirically show that
SUPE reliably outperforms prior strategies, successfully solving a suite of
long-horizon, sparse-reward tasks. Code: https://github.com/rail-berkeley/supe.Summary
AI-Generated Summary