Nullschritt Modellbasiertes Verstärkungslernen unter Verwendung großer Sprachmodelle

Zusammenfassung

Die aufkommenden Zero-Shot-Fähigkeiten großer Sprachmodelle (LLMs) haben zu ihrer Anwendung in Bereichen geführt, die weit über natürliche Sprachverarbeitungsaufgaben hinausgehen. Im Bereich des reinforcement learning wurden LLMs zwar umfassend in textbasierten Umgebungen eingesetzt, ihre Integration mit kontinuierlichen Zustandsräumen ist jedoch noch wenig erforscht. In diesem Artikel untersuchen wir, wie vortrainierte LLMs genutzt werden können, um im Kontext die Dynamik kontinuierlicher Markov-Entscheidungsprozesse vorherzusagen. Wir identifizieren die Bewältigung multivariater Daten und die Integration des Steuersignals als zentrale Herausforderungen, die das Potenzial der Bereitstellung von LLMs in diesem Setup einschränken, und schlagen Disentangled In-Context Learning (DICL) vor, um diesen Herausforderungen zu begegnen. Wir präsentieren Proof-of-Concept-Anwendungen in zwei reinforcement learning Umgebungen: modellbasierte Politikevaluierung und datengestütztes Off-Policy-Reinforcement-Learning, unterstützt durch eine theoretische Analyse der vorgeschlagenen Methoden. Unsere Experimente zeigen weiterhin, dass unser Ansatz gut kalibrierte Unsicherheitsschätzungen liefert. Wir veröffentlichen den Code unter https://github.com/abenechehab/dicl.

English

The emerging zero-shot capabilities of Large Language Models (LLMs) have led to their applications in areas extending well beyond natural language processing tasks. In reinforcement learning, while LLMs have been extensively used in text-based environments, their integration with continuous state spaces remains understudied. In this paper, we investigate how pre-trained LLMs can be leveraged to predict in context the dynamics of continuous Markov decision processes. We identify handling multivariate data and incorporating the control signal as key challenges that limit the potential of LLMs' deployment in this setup and propose Disentangled In-Context Learning (DICL) to address them. We present proof-of-concept applications in two reinforcement learning settings: model-based policy evaluation and data-augmented off-policy reinforcement learning, supported by theoretical analysis of the proposed methods. Our experiments further demonstrate that our approach produces well-calibrated uncertainty estimates. We release the code at https://github.com/abenechehab/dicl.

Nullschritt Modellbasiertes Verstärkungslernen unter Verwendung großer Sprachmodelle

Zero-shot Model-based Reinforcement Learning using Large Language Models

Zusammenfassung

Support