RL + Transformer = 일반 목적 문제 해결자
RL + Transformer = A General-Purpose Problem Solver
January 24, 2025
저자: Micah Rentschler, Jesse Roberts
cs.AI
초록
만약 인공지능이 훈련을 받은 문제뿐만 아니라 새로운 문제를 해결하기 위해 스스로 가르치는 학습(meta-learn)을 할 수 있다면 어떨까요? 본 연구에서는 강화 학습을 통해 세밀하게 조정된 사전 훈련된 트랜스포머가 여러 에피소드에 걸쳐 발전하여 이전에 접하지 못한 문제를 해결하는 능력을 발달시키는 것을 증명합니다 - 이를 'In-Context Reinforcement Learning (ICRL)'이라고 하는 신생능력입니다. 이 강력한 메타-러너는 보이지 않는 인-분포 환경에서 뛌륭한 샘플 효율성으로 높은 성능을 보이는데 그치지 않고, 아웃-오브-분포 환경에서도 강한 성능을 보여줍니다. 더불어, 훈련 데이터의 품질에 대한 견고성을 보여주며, 문맥에서 행동을 매끄럽게 결합하고, 비정상적인 환경에 적응하는 것을 보여줍니다. 이러한 행동들은 강화 학습을 받은 트랜스포머가 자체 해결책을 반복적으로 개선할 수 있음을 보여주며, 이를 통해 우수한 일반적인 문제 해결자가 될 수 있음을 입증합니다.
English
What if artificial intelligence could not only solve problems for which it
was trained but also learn to teach itself to solve new problems (i.e.,
meta-learn)? In this study, we demonstrate that a pre-trained transformer
fine-tuned with reinforcement learning over multiple episodes develops the
ability to solve problems that it has never encountered before - an emergent
ability called In-Context Reinforcement Learning (ICRL). This powerful
meta-learner not only excels in solving unseen in-distribution environments
with remarkable sample efficiency, but also shows strong performance in
out-of-distribution environments. In addition, we show that it exhibits
robustness to the quality of its training data, seamlessly stitches together
behaviors from its context, and adapts to non-stationary environments. These
behaviors demonstrate that an RL-trained transformer can iteratively improve
upon its own solutions, making it an excellent general-purpose problem solver.Summary
AI-Generated Summary