SimBa: Simplicity Bias voor het opschalen van parameters in diep versterkend leren
SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning
October 13, 2024
Auteurs: Hojoon Lee, Dongyoon Hwang, Donghu Kim, Hyunseung Kim, Jun Jet Tai, Kaushik Subramanian, Peter R. Wurman, Jaegul Choo, Peter Stone, Takuma Seno
cs.AI
Samenvatting
Recente ontwikkelingen in Computer Vision (CV) en Natural Language Processing (NLP) zijn grotendeels gestimuleerd door het vergroten van het aantal netwerkparameters, ondanks dat traditionele theorieën suggereren dat grotere netwerken vatbaar zijn voor overfitting. Deze grote netwerken vermijden overfitting door componenten te integreren die een eenvoudigheidsbias induceren, waardoor modellen worden geleid naar eenvoudige en generaliseerbare oplossingen. Echter, in deep Reinforcement Learning (RL) is het ontwerpen en vergroten van netwerken minder onderzocht. Gemotiveerd door deze kans, presenteren we SimBa, een architectuur ontworpen om parameters in deep RL op te schalen door een eenvoudigheidsbias toe te voegen. SimBa bestaat uit drie componenten: (i) een observatienormalisatielaag die inputs standaardiseert met lopende statistieken, (ii) een residu feedforward blok om een lineair pad van de input naar de output te bieden, en (iii) een laagnormalisatie om kenmerkmagnitudes te controleren. Door parameters op te schalen met SimBa, wordt de steekproefeffectiviteit van verschillende deep RL-algoritmen - inclusief off-policy, on-policy en ongesuperviseerde methoden - consequent verbeterd. Bovendien, alleen door de SimBa-architectuur te integreren in SAC, evenaart of overtreft het de state-of-the-art deep RL-methoden met hoge rekenkundige efficiëntie over DMC, MyoSuite en HumanoidBench. Deze resultaten tonen de brede toepasbaarheid en effectiviteit van SimBa aan over diverse RL-algoritmen en omgevingen.
English
Recent advances in CV and NLP have been largely driven by scaling up the
number of network parameters, despite traditional theories suggesting that
larger networks are prone to overfitting. These large networks avoid
overfitting by integrating components that induce a simplicity bias, guiding
models toward simple and generalizable solutions. However, in deep RL,
designing and scaling up networks have been less explored. Motivated by this
opportunity, we present SimBa, an architecture designed to scale up parameters
in deep RL by injecting a simplicity bias. SimBa consists of three components:
(i) an observation normalization layer that standardizes inputs with running
statistics, (ii) a residual feedforward block to provide a linear pathway from
the input to output, and (iii) a layer normalization to control feature
magnitudes. By scaling up parameters with SimBa, the sample efficiency of
various deep RL algorithms-including off-policy, on-policy, and unsupervised
methods-is consistently improved. Moreover, solely by integrating SimBa
architecture into SAC, it matches or surpasses state-of-the-art deep RL methods
with high computational efficiency across DMC, MyoSuite, and HumanoidBench.
These results demonstrate SimBa's broad applicability and effectiveness across
diverse RL algorithms and environments.Summary
AI-Generated Summary