Nutzung von Fähigkeiten aus unbeschrifteten Vorabdaten für effiziente Online-Erkundung
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration
October 23, 2024
Autoren: Max Wilcoxson, Qiyang Li, Kevin Frans, Sergey Levine
cs.AI
Zusammenfassung
Unüberwachtes Vortrainieren hat in vielen überwachten Bereichen transformative Auswirkungen gehabt. Die Anwendung solcher Ideen auf das Reinforcement Learning (RL) stellt jedoch eine einzigartige Herausforderung dar, da das Feinabstimmen nicht das Nachahmen von aufgabenspezifischen Daten beinhaltet, sondern vielmehr das Erforschen und Lokalisieren der Lösung durch iterative Selbstverbesserung. In dieser Arbeit untersuchen wir, wie nicht beschriftete vorherige Trajektoriendaten genutzt werden können, um effiziente Erkundungsstrategien zu erlernen. Während vorherige Daten verwendet werden können, um einen Satz von niedrigstufigen Fähigkeiten vorzutrainieren oder als zusätzliche Off-Policy-Daten für Online-RL zu dienen, war bisher unklar, wie diese Ideen effektiv für die Online-Erkundung kombiniert werden können. Unsere Methode SUPE (Fähigkeiten aus nicht beschrifteten vorherigen Daten für Erkundung) zeigt, dass eine sorgfältige Kombination dieser Ideen ihre Vorteile potenziert. Unsere Methode extrahiert zunächst niedrigstufige Fähigkeiten mithilfe eines Variationalen Autoencoders (VAE) und kennzeichnet dann Pseudo-Trajektorien mit nicht beschrifteten Daten mithilfe eines optimistischen Belohnungsmodells neu, wodurch vorherige Daten in hochstufige, aufgabenrelevante Beispiele umgewandelt werden. Schließlich verwendet SUPE diese transformierten Beispiele als zusätzliche Off-Policy-Daten für Online-RL, um eine hochstufige Richtlinie zu erlernen, die vortrainierte niedrigstufige Fähigkeiten zusammensetzt, um effizient zu erkunden. Wir zeigen empirisch, dass SUPE zuverlässig frühere Strategien übertrifft und erfolgreich eine Reihe von langfristigen, dünn belohnten Aufgaben löst. Code: https://github.com/rail-berkeley/supe.
English
Unsupervised pretraining has been transformative in many supervised domains.
However, applying such ideas to reinforcement learning (RL) presents a unique
challenge in that fine-tuning does not involve mimicking task-specific data,
but rather exploring and locating the solution through iterative
self-improvement. In this work, we study how unlabeled prior trajectory data
can be leveraged to learn efficient exploration strategies. While prior data
can be used to pretrain a set of low-level skills, or as additional off-policy
data for online RL, it has been unclear how to combine these ideas effectively
for online exploration. Our method SUPE (Skills from Unlabeled Prior data for
Exploration) demonstrates that a careful combination of these ideas compounds
their benefits. Our method first extracts low-level skills using a variational
autoencoder (VAE), and then pseudo-relabels unlabeled trajectories using an
optimistic reward model, transforming prior data into high-level, task-relevant
examples. Finally, SUPE uses these transformed examples as additional
off-policy data for online RL to learn a high-level policy that composes
pretrained low-level skills to explore efficiently. We empirically show that
SUPE reliably outperforms prior strategies, successfully solving a suite of
long-horizon, sparse-reward tasks. Code: https://github.com/rail-berkeley/supe.Summary
AI-Generated Summary