RL + Transformer = Een Algemeen Inzetbare Probleemoplosser
RL + Transformer = A General-Purpose Problem Solver
January 24, 2025
Auteurs: Micah Rentschler, Jesse Roberts
cs.AI
Samenvatting
Wat als kunstmatige intelligentie niet alleen problemen kon oplossen waarvoor het is getraind, maar ook kon leren zichzelf te onderwijzen om nieuwe problemen op te lossen (d.w.z. meta-leren)? In dit onderzoek tonen we aan dat een vooraf getrainde transformer, verfijnd met versterkend leren over meerdere afleveringen, de vaardigheid ontwikkelt om problemen op te lossen die het nog nooit eerder is tegengekomen - een opkomende vaardigheid genaamd In-Context Reinforcement Learning (ICRL). Deze krachtige meta-leraar excelleert niet alleen in het oplossen van ongeziene omgevingen binnen de distributie met opmerkelijke steekproefefficiëntie, maar vertoont ook sterke prestaties in omgevingen buiten de distributie. Bovendien tonen we aan dat het robuustheid vertoont ten opzichte van de kwaliteit van zijn trainingsgegevens, gedragingen naadloos samenvoegt uit de context en zich aanpast aan niet-stationaire omgevingen. Deze gedragingen tonen aan dat een met RL getrainde transformer iteratief kan verbeteren op zijn eigen oplossingen, waardoor het een uitstekende algemene probleemoplosser is.
English
What if artificial intelligence could not only solve problems for which it
was trained but also learn to teach itself to solve new problems (i.e.,
meta-learn)? In this study, we demonstrate that a pre-trained transformer
fine-tuned with reinforcement learning over multiple episodes develops the
ability to solve problems that it has never encountered before - an emergent
ability called In-Context Reinforcement Learning (ICRL). This powerful
meta-learner not only excels in solving unseen in-distribution environments
with remarkable sample efficiency, but also shows strong performance in
out-of-distribution environments. In addition, we show that it exhibits
robustness to the quality of its training data, seamlessly stitches together
behaviors from its context, and adapts to non-stationary environments. These
behaviors demonstrate that an RL-trained transformer can iteratively improve
upon its own solutions, making it an excellent general-purpose problem solver.Summary
AI-Generated Summary