SimBa: 심플리시 바이어스를 활용한 딥 강화 학습 파라미터 확장
SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning
October 13, 2024
저자: Hojoon Lee, Dongyoon Hwang, Donghu Kim, Hyunseung Kim, Jun Jet Tai, Kaushik Subramanian, Peter R. Wurman, Jaegul Choo, Peter Stone, Takuma Seno
cs.AI
초록
최근 CV(Computer Vision)와 NLP(Natural Language Processing) 분야의 발전은 주로 네트워크 매개변수의 규모를 확장함으로써 이루어졌으며, 이는 더 큰 네트워크가 오버피팅에 취약하다는 전통적인 이론에도 불구하고 이루어졌습니다. 이러한 대규모 네트워크는 단순성 편향을 유발하는 구성 요소를 통합함으로써 오버피팅을 피하며, 모델을 단순하고 일반화 가능한 해결책으로 이끌어줍니다. 그러나, 딥 강화 학습 분야에서 네트워크의 설계와 확장은 덜 탐구되어 왔습니다. 이러한 기회를 바탕으로, 본 연구에서는 단순성 편향을 주입하여 딥 강화 학습에서 매개변수 규모를 확장하는 SimBa 아키텍처를 제안합니다. SimBa는 세 가지 구성 요소로 구성되어 있습니다: (i) 입력을 실행 중인 통계로 표준화하는 관측 정규화 계층, (ii) 입력부터 출력까지 선형 경로를 제공하는 잔차 피드포워드 블록, (iii) 특성 크기를 제어하기 위한 레이어 정규화. SimBa를 사용하여 매개변수를 확장함으로써, 오프-폴리시, 온-폴리시 및 비지도 학습 방법을 포함한 다양한 딥 강화 학습 알고리즘의 샘플 효율성이 일관되게 향상됩니다. 더불어, SAC(Soft Actor-Critic)에 SimBa 아키텍처를 통합함으로써, DMC, MyoSuite 및 HumanoidBench를 통해 고성능의 딥 강화 학습 방법과 일치하거나 뛰어넘는 상태를 달성하며 높은 계산 효율성을 보여줍니다. 이러한 결과는 SimBa의 다양한 강화 학습 알고리즘과 환경에 대한 광범위한 적용 가능성과 효과를 입증합니다.
English
Recent advances in CV and NLP have been largely driven by scaling up the
number of network parameters, despite traditional theories suggesting that
larger networks are prone to overfitting. These large networks avoid
overfitting by integrating components that induce a simplicity bias, guiding
models toward simple and generalizable solutions. However, in deep RL,
designing and scaling up networks have been less explored. Motivated by this
opportunity, we present SimBa, an architecture designed to scale up parameters
in deep RL by injecting a simplicity bias. SimBa consists of three components:
(i) an observation normalization layer that standardizes inputs with running
statistics, (ii) a residual feedforward block to provide a linear pathway from
the input to output, and (iii) a layer normalization to control feature
magnitudes. By scaling up parameters with SimBa, the sample efficiency of
various deep RL algorithms-including off-policy, on-policy, and unsupervised
methods-is consistently improved. Moreover, solely by integrating SimBa
architecture into SAC, it matches or surpasses state-of-the-art deep RL methods
with high computational efficiency across DMC, MyoSuite, and HumanoidBench.
These results demonstrate SimBa's broad applicability and effectiveness across
diverse RL algorithms and environments.Summary
AI-Generated Summary