Nutzung von Fähigkeiten aus unbeschrifteten Vorabdaten für effiziente Online-Erkundung

Zusammenfassung

Unüberwachtes Vortrainieren hat in vielen überwachten Bereichen transformative Auswirkungen gehabt. Die Anwendung solcher Ideen auf das Reinforcement Learning (RL) stellt jedoch eine einzigartige Herausforderung dar, da das Feinabstimmen nicht das Nachahmen von aufgabenspezifischen Daten beinhaltet, sondern vielmehr das Erforschen und Lokalisieren der Lösung durch iterative Selbstverbesserung. In dieser Arbeit untersuchen wir, wie nicht beschriftete vorherige Trajektoriendaten genutzt werden können, um effiziente Erkundungsstrategien zu erlernen. Während vorherige Daten verwendet werden können, um einen Satz von niedrigstufigen Fähigkeiten vorzutrainieren oder als zusätzliche Off-Policy-Daten für Online-RL zu dienen, war bisher unklar, wie diese Ideen effektiv für die Online-Erkundung kombiniert werden können. Unsere Methode SUPE (Fähigkeiten aus nicht beschrifteten vorherigen Daten für Erkundung) zeigt, dass eine sorgfältige Kombination dieser Ideen ihre Vorteile potenziert. Unsere Methode extrahiert zunächst niedrigstufige Fähigkeiten mithilfe eines Variationalen Autoencoders (VAE) und kennzeichnet dann Pseudo-Trajektorien mit nicht beschrifteten Daten mithilfe eines optimistischen Belohnungsmodells neu, wodurch vorherige Daten in hochstufige, aufgabenrelevante Beispiele umgewandelt werden. Schließlich verwendet SUPE diese transformierten Beispiele als zusätzliche Off-Policy-Daten für Online-RL, um eine hochstufige Richtlinie zu erlernen, die vortrainierte niedrigstufige Fähigkeiten zusammensetzt, um effizient zu erkunden. Wir zeigen empirisch, dass SUPE zuverlässig frühere Strategien übertrifft und erfolgreich eine Reihe von langfristigen, dünn belohnten Aufgaben löst. Code: https://github.com/rail-berkeley/supe.

English

Unsupervised pretraining has been transformative in many supervised domains. However, applying such ideas to reinforcement learning (RL) presents a unique challenge in that fine-tuning does not involve mimicking task-specific data, but rather exploring and locating the solution through iterative self-improvement. In this work, we study how unlabeled prior trajectory data can be leveraged to learn efficient exploration strategies. While prior data can be used to pretrain a set of low-level skills, or as additional off-policy data for online RL, it has been unclear how to combine these ideas effectively for online exploration. Our method SUPE (Skills from Unlabeled Prior data for Exploration) demonstrates that a careful combination of these ideas compounds their benefits. Our method first extracts low-level skills using a variational autoencoder (VAE), and then pseudo-relabels unlabeled trajectories using an optimistic reward model, transforming prior data into high-level, task-relevant examples. Finally, SUPE uses these transformed examples as additional off-policy data for online RL to learn a high-level policy that composes pretrained low-level skills to explore efficiently. We empirically show that SUPE reliably outperforms prior strategies, successfully solving a suite of long-horizon, sparse-reward tasks. Code: https://github.com/rail-berkeley/supe.

Nutzung von Fähigkeiten aus unbeschrifteten Vorabdaten für effiziente Online-Erkundung

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Zusammenfassung

Support