Naar Algemene Modelvrije Versterkend Leren
Towards General-Purpose Model-Free Reinforcement Learning
January 27, 2025
Auteurs: Scott Fujimoto, Pierluca D'Oro, Amy Zhang, Yuandong Tian, Michael Rabbat
cs.AI
Samenvatting
Reinforcement learning (RL) belooft een raamwerk voor bijna universele probleemoplossing. In de praktijk zijn RL-algoritmes echter vaak afgestemd op specifieke benchmarks, waarbij ze vertrouwen op zorgvuldig afgestemde hyperparameters en algoritmische keuzes. Onlangs hebben krachtige op modellen gebaseerde RL-methoden indrukwekkende algemene resultaten laten zien over benchmarks, maar dit gaat gepaard met een toename in complexiteit en langere looptijden, wat hun bredere toepasbaarheid beperkt. In dit artikel proberen we een verenigend modelvrij diep RL-algoritme te vinden dat een diverse klasse van domeinen en probleeminstellingen kan aanpakken. Om dit te bereiken, maken we gebruik van op modellen gebaseerde representaties die de waardefunctie bij benadering lineariseren, waarbij we profiteren van de dichtere taakdoelstellingen die worden gebruikt door op modellen gebaseerde RL, terwijl we de kosten vermijden die gepaard gaan met planning of gesimuleerde trajecten. We evalueren ons algoritme, MR.Q, op een verscheidenheid aan gangbare RL-benchmarks met een enkele set hyperparameters en tonen een competitieve prestatie ten opzichte van domeinspecifieke en algemene baselines, wat een concrete stap is in de richting van het ontwikkelen van modelvrije diepe RL-algoritmes voor algemeen gebruik.
English
Reinforcement learning (RL) promises a framework for near-universal
problem-solving. In practice however, RL algorithms are often tailored to
specific benchmarks, relying on carefully tuned hyperparameters and algorithmic
choices. Recently, powerful model-based RL methods have shown impressive
general results across benchmarks but come at the cost of increased complexity
and slow run times, limiting their broader applicability. In this paper, we
attempt to find a unifying model-free deep RL algorithm that can address a
diverse class of domains and problem settings. To achieve this, we leverage
model-based representations that approximately linearize the value function,
taking advantage of the denser task objectives used by model-based RL while
avoiding the costs associated with planning or simulated trajectories. We
evaluate our algorithm, MR.Q, on a variety of common RL benchmarks with a
single set of hyperparameters and show a competitive performance against
domain-specific and general baselines, providing a concrete step towards
building general-purpose model-free deep RL algorithms.Summary
AI-Generated Summary