Auf dem Weg zu einem allgemeinen modellfreien Reinforcement-Learning-Modell
Towards General-Purpose Model-Free Reinforcement Learning
January 27, 2025
Autoren: Scott Fujimoto, Pierluca D'Oro, Amy Zhang, Yuandong Tian, Michael Rabbat
cs.AI
Zusammenfassung
Das Reinforcement Learning (RL) verspricht einen Rahmen für nahezu universelle Problemlösungen. In der Praxis werden RL-Algorithmen jedoch oft auf spezifische Benchmarks zugeschnitten, die auf sorgfältig abgestimmten Hyperparametern und algorithmischen Entscheidungen beruhen. In letzter Zeit haben leistungsstarke modellbasierte RL-Methoden beeindruckende allgemeine Ergebnisse über Benchmarks gezeigt, jedoch auf Kosten erhöhter Komplexität und langsamer Laufzeiten, was ihre breitere Anwendbarkeit einschränkt. In diesem Paper versuchen wir, einen vereinheitlichenden modellfreien Deep-RL-Algorithmus zu finden, der eine vielfältige Klasse von Domänen und Problemstellungen adressieren kann. Um dies zu erreichen, nutzen wir modellbasierte Repräsentationen, die die Wertefunktion approximativ linearisieren und dabei von den dichteren Aufgabenzielen profitieren, die von modellbasiertem RL verwendet werden, während wir die mit der Planung oder simulierten Trajektorien verbundenen Kosten vermeiden. Wir evaluieren unseren Algorithmus, MR.Q, an einer Vielzahl von gängigen RL-Benchmarks mit einem einzigen Satz von Hyperparametern und zeigen eine wettbewerbsfähige Leistung gegen domänenspezifische und allgemeine Baselines, was einen konkreten Schritt hin zur Entwicklung von modellfreien Deep-RL-Algorithmen für allgemeine Zwecke darstellt.
English
Reinforcement learning (RL) promises a framework for near-universal
problem-solving. In practice however, RL algorithms are often tailored to
specific benchmarks, relying on carefully tuned hyperparameters and algorithmic
choices. Recently, powerful model-based RL methods have shown impressive
general results across benchmarks but come at the cost of increased complexity
and slow run times, limiting their broader applicability. In this paper, we
attempt to find a unifying model-free deep RL algorithm that can address a
diverse class of domains and problem settings. To achieve this, we leverage
model-based representations that approximately linearize the value function,
taking advantage of the denser task objectives used by model-based RL while
avoiding the costs associated with planning or simulated trajectories. We
evaluate our algorithm, MR.Q, on a variety of common RL benchmarks with a
single set of hyperparameters and show a competitive performance against
domain-specific and general baselines, providing a concrete step towards
building general-purpose model-free deep RL algorithms.Summary
AI-Generated Summary