LLM's zijn hebberige agenten: Effecten van RL-finetuning op besluitvormingsvaardigheden
LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities
April 22, 2025
Auteurs: Thomas Schmied, Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu
cs.AI
Samenvatting
Het succes van Large Language Models (LLM's) heeft interesse gewekt in diverse agent-gebaseerde toepassingen. Een belangrijke hypothese is dat LLM's, door gebruik te maken van gezond verstand en Chain-of-Thought (CoT) redenering, effectief complexe domeinen kunnen verkennen en efficiënt kunnen oplossen. Echter, is gebleken dat LLM-agenten last hebben van suboptimale verkenning en de 'knowing-doing gap', het onvermogen om effectief te handelen op basis van kennis die in het model aanwezig is. In dit werk bestuderen we systematisch waarom LLM's suboptimaal presteren in besluitvormingsscenario's. In het bijzonder onderzoeken we drie veelvoorkomende faalmodes: hebzucht, frequentiebias en de 'knowing-doing gap'. We stellen een aanpak voor om deze tekortkomingen te mitigeren door fine-tuning via Reinforcement Learning (RL) op zelf gegenereerde CoT-redeneringen. Onze experimenten met multi-armed bandits, contextuele bandits en Tic-tac-toe tonen aan dat RL-fine-tuning de besluitvormingsvaardigheden van LLM's verbetert door verkenning te vergroten en de 'knowing-doing gap' te verkleinen. Tot slot bestuderen we zowel klassieke verkenningstechnieken, zoals epsilon-greedy, als LLM-specifieke benaderingen, zoals zelfcorrectie en zelfconsistentie, om een effectievere fine-tuning van LLM's voor besluitvorming mogelijk te maken.
English
The success of Large Language Models (LLMs) has sparked interest in various
agentic applications. A key hypothesis is that LLMs, leveraging common sense
and Chain-of-Thought (CoT) reasoning, can effectively explore and efficiently
solve complex domains. However, LLM agents have been found to suffer from
sub-optimal exploration and the knowing-doing gap, the inability to effectively
act on knowledge present in the model. In this work, we systematically study
why LLMs perform sub-optimally in decision-making scenarios. In particular, we
closely examine three prevalent failure modes: greediness, frequency bias, and
the knowing-doing gap. We propose mitigation of these shortcomings by
fine-tuning via Reinforcement Learning (RL) on self-generated CoT rationales.
Our experiments across multi-armed bandits, contextual bandits, and
Tic-tac-toe, demonstrate that RL fine-tuning enhances the decision-making
abilities of LLMs by increasing exploration and narrowing the knowing-doing
gap. Finally, we study both classic exploration mechanisms, such as
epsilon-greedy, and LLM-specific approaches, such as self-correction and
self-consistency, to enable more effective fine-tuning of LLMs for
decision-making.Summary
AI-Generated Summary