ChatPaper.aiChatPaper

LLM's zijn hebberige agenten: Effecten van RL-finetuning op besluitvormingsvaardigheden

LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

April 22, 2025
Auteurs: Thomas Schmied, Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu
cs.AI

Samenvatting

Het succes van Large Language Models (LLM's) heeft interesse gewekt in diverse agent-gebaseerde toepassingen. Een belangrijke hypothese is dat LLM's, door gebruik te maken van gezond verstand en Chain-of-Thought (CoT) redenering, effectief complexe domeinen kunnen verkennen en efficiënt kunnen oplossen. Echter, is gebleken dat LLM-agenten last hebben van suboptimale verkenning en de 'knowing-doing gap', het onvermogen om effectief te handelen op basis van kennis die in het model aanwezig is. In dit werk bestuderen we systematisch waarom LLM's suboptimaal presteren in besluitvormingsscenario's. In het bijzonder onderzoeken we drie veelvoorkomende faalmodes: hebzucht, frequentiebias en de 'knowing-doing gap'. We stellen een aanpak voor om deze tekortkomingen te mitigeren door fine-tuning via Reinforcement Learning (RL) op zelf gegenereerde CoT-redeneringen. Onze experimenten met multi-armed bandits, contextuele bandits en Tic-tac-toe tonen aan dat RL-fine-tuning de besluitvormingsvaardigheden van LLM's verbetert door verkenning te vergroten en de 'knowing-doing gap' te verkleinen. Tot slot bestuderen we zowel klassieke verkenningstechnieken, zoals epsilon-greedy, als LLM-specifieke benaderingen, zoals zelfcorrectie en zelfconsistentie, om een effectievere fine-tuning van LLM's voor besluitvorming mogelijk te maken.
English
The success of Large Language Models (LLMs) has sparked interest in various agentic applications. A key hypothesis is that LLMs, leveraging common sense and Chain-of-Thought (CoT) reasoning, can effectively explore and efficiently solve complex domains. However, LLM agents have been found to suffer from sub-optimal exploration and the knowing-doing gap, the inability to effectively act on knowledge present in the model. In this work, we systematically study why LLMs perform sub-optimally in decision-making scenarios. In particular, we closely examine three prevalent failure modes: greediness, frequency bias, and the knowing-doing gap. We propose mitigation of these shortcomings by fine-tuning via Reinforcement Learning (RL) on self-generated CoT rationales. Our experiments across multi-armed bandits, contextual bandits, and Tic-tac-toe, demonstrate that RL fine-tuning enhances the decision-making abilities of LLMs by increasing exploration and narrowing the knowing-doing gap. Finally, we study both classic exploration mechanisms, such as epsilon-greedy, and LLM-specific approaches, such as self-correction and self-consistency, to enable more effective fine-tuning of LLMs for decision-making.

Summary

AI-Generated Summary

PDF193April 23, 2025