Nullschritt Modellbasiertes Verstärkungslernen unter Verwendung großer Sprachmodelle
Zero-shot Model-based Reinforcement Learning using Large Language Models
October 15, 2024
Autoren: Abdelhakim Benechehab, Youssef Attia El Hili, Ambroise Odonnat, Oussama Zekri, Albert Thomas, Giuseppe Paolo, Maurizio Filippone, Ievgen Redko, Balázs Kégl
cs.AI
Zusammenfassung
Die aufkommenden Zero-Shot-Fähigkeiten großer Sprachmodelle (LLMs) haben zu ihrer Anwendung in Bereichen geführt, die weit über natürliche Sprachverarbeitungsaufgaben hinausgehen. Im Bereich des reinforcement learning wurden LLMs zwar umfassend in textbasierten Umgebungen eingesetzt, ihre Integration mit kontinuierlichen Zustandsräumen ist jedoch noch wenig erforscht. In diesem Artikel untersuchen wir, wie vortrainierte LLMs genutzt werden können, um im Kontext die Dynamik kontinuierlicher Markov-Entscheidungsprozesse vorherzusagen. Wir identifizieren die Bewältigung multivariater Daten und die Integration des Steuersignals als zentrale Herausforderungen, die das Potenzial der Bereitstellung von LLMs in diesem Setup einschränken, und schlagen Disentangled In-Context Learning (DICL) vor, um diesen Herausforderungen zu begegnen. Wir präsentieren Proof-of-Concept-Anwendungen in zwei reinforcement learning Umgebungen: modellbasierte Politikevaluierung und datengestütztes Off-Policy-Reinforcement-Learning, unterstützt durch eine theoretische Analyse der vorgeschlagenen Methoden. Unsere Experimente zeigen weiterhin, dass unser Ansatz gut kalibrierte Unsicherheitsschätzungen liefert. Wir veröffentlichen den Code unter https://github.com/abenechehab/dicl.
English
The emerging zero-shot capabilities of Large Language Models (LLMs) have led
to their applications in areas extending well beyond natural language
processing tasks. In reinforcement learning, while LLMs have been extensively
used in text-based environments, their integration with continuous state spaces
remains understudied. In this paper, we investigate how pre-trained LLMs can be
leveraged to predict in context the dynamics of continuous Markov decision
processes. We identify handling multivariate data and incorporating the control
signal as key challenges that limit the potential of LLMs' deployment in this
setup and propose Disentangled In-Context Learning (DICL) to address them. We
present proof-of-concept applications in two reinforcement learning settings:
model-based policy evaluation and data-augmented off-policy reinforcement
learning, supported by theoretical analysis of the proposed methods. Our
experiments further demonstrate that our approach produces well-calibrated
uncertainty estimates. We release the code at
https://github.com/abenechehab/dicl.Summary
AI-Generated Summary