ChatPaper.aiChatPaper

RL + Transformer = Ein Allzweck-Problemlöser

RL + Transformer = A General-Purpose Problem Solver

January 24, 2025
Autoren: Micah Rentschler, Jesse Roberts
cs.AI

Zusammenfassung

Was wäre, wenn künstliche Intelligenz nicht nur Probleme lösen könnte, für die sie trainiert wurde, sondern auch lernen könnte, sich selbst beizubringen, neue Probleme zu lösen (d. h. Meta-Lernen)? In dieser Studie zeigen wir, dass ein vorab trainierter Transformer, der mit Verstärkungslernen über mehrere Episoden feinabgestimmt wurde, die Fähigkeit entwickelt, Probleme zu lösen, die ihm zuvor noch nie begegnet sind - eine aufkommende Fähigkeit namens In-Context Reinforcement Learning (ICRL). Dieser leistungsstarke Meta-Lerner überzeugt nicht nur bei der Lösung von unbekannten Umgebungen mit bemerkenswerter Stichprobeneffizienz, sondern zeigt auch eine starke Leistung in Umgebungen außerhalb der Verteilung. Darüber hinaus zeigen wir, dass er robust gegenüber der Qualität seiner Trainingsdaten ist, Verhaltensweisen nahtlos aus seinem Kontext zusammenfügt und sich an nicht-stationäre Umgebungen anpasst. Diese Verhaltensweisen zeigen, dass ein mit RL trainierter Transformer iterativ seine eigenen Lösungen verbessern kann, was ihn zu einem hervorragenden Problemlöser für allgemeine Zwecke macht.
English
What if artificial intelligence could not only solve problems for which it was trained but also learn to teach itself to solve new problems (i.e., meta-learn)? In this study, we demonstrate that a pre-trained transformer fine-tuned with reinforcement learning over multiple episodes develops the ability to solve problems that it has never encountered before - an emergent ability called In-Context Reinforcement Learning (ICRL). This powerful meta-learner not only excels in solving unseen in-distribution environments with remarkable sample efficiency, but also shows strong performance in out-of-distribution environments. In addition, we show that it exhibits robustness to the quality of its training data, seamlessly stitches together behaviors from its context, and adapts to non-stationary environments. These behaviors demonstrate that an RL-trained transformer can iteratively improve upon its own solutions, making it an excellent general-purpose problem solver.

Summary

AI-Generated Summary

PDF282January 27, 2025