Naar Algemene Modelvrije Versterkend Leren

Towards General-Purpose Model-Free Reinforcement Learning

January 27, 2025
Auteurs: Scott Fujimoto, Pierluca D'Oro, Amy Zhang, Yuandong Tian, Michael Rabbat
cs.AI

Samenvatting

Reinforcement learning (RL) belooft een raamwerk voor bijna universele probleemoplossing. In de praktijk zijn RL-algoritmes echter vaak afgestemd op specifieke benchmarks, waarbij ze vertrouwen op zorgvuldig afgestemde hyperparameters en algoritmische keuzes. Onlangs hebben krachtige op modellen gebaseerde RL-methoden indrukwekkende algemene resultaten laten zien over benchmarks, maar dit gaat gepaard met een toename in complexiteit en langere looptijden, wat hun bredere toepasbaarheid beperkt. In dit artikel proberen we een verenigend modelvrij diep RL-algoritme te vinden dat een diverse klasse van domeinen en probleeminstellingen kan aanpakken. Om dit te bereiken, maken we gebruik van op modellen gebaseerde representaties die de waardefunctie bij benadering lineariseren, waarbij we profiteren van de dichtere taakdoelstellingen die worden gebruikt door op modellen gebaseerde RL, terwijl we de kosten vermijden die gepaard gaan met planning of gesimuleerde trajecten. We evalueren ons algoritme, MR.Q, op een verscheidenheid aan gangbare RL-benchmarks met een enkele set hyperparameters en tonen een competitieve prestatie ten opzichte van domeinspecifieke en algemene baselines, wat een concrete stap is in de richting van het ontwikkelen van modelvrije diepe RL-algoritmes voor algemeen gebruik.
English
Reinforcement learning (RL) promises a framework for near-universal problem-solving. In practice however, RL algorithms are often tailored to specific benchmarks, relying on carefully tuned hyperparameters and algorithmic choices. Recently, powerful model-based RL methods have shown impressive general results across benchmarks but come at the cost of increased complexity and slow run times, limiting their broader applicability. In this paper, we attempt to find a unifying model-free deep RL algorithm that can address a diverse class of domains and problem settings. To achieve this, we leverage model-based representations that approximately linearize the value function, taking advantage of the denser task objectives used by model-based RL while avoiding the costs associated with planning or simulated trajectories. We evaluate our algorithm, MR.Q, on a variety of common RL benchmarks with a single set of hyperparameters and show a competitive performance against domain-specific and general baselines, providing a concrete step towards building general-purpose model-free deep RL algorithms.

Summary

AI-Generated Summary

PDF193January 28, 2025