Reinforcement Learning met natuurlijke taal
Natural Language Reinforcement Learning
November 21, 2024
Auteurs: Xidong Feng, Ziyu Wan, Haotian Fu, Bo Liu, Mengyue Yang, Girish A. Koushik, Zhiyuan Hu, Ying Wen, Jun Wang
cs.AI
Samenvatting
Reinforcement Learning (RL) formuleert mathematisch besluitvorming met een Markov Decision Process (MDP). Met MDP's hebben onderzoekers opmerkelijke doorbraken bereikt in verschillende domeinen, waaronder games, robotica en taalmodellen. Dit artikel onderzoekt een nieuwe mogelijkheid, Natural Language Reinforcement Learning (NLRL), door het traditionele MDP uit te breiden naar een representatieruimte op basis van natuurlijke taal. Specifiek herdefinieert NLRL op innovatieve wijze RL-principes, waaronder taakdoelstellingen, beleid, waardefunctie, Bellman-vergelijking en beleidsiteratie, in hun taal tegenhangers. Met recente vooruitgang in grote taalmodellen (LLM's) kan NLRL praktisch worden geïmplementeerd om RL-achtige beleids- en waardeverbetering te bereiken door middel van pure aanwijzingen of op gradient gebaseerde training. Experimenten over doolhoven, doorbraken en boter-kaas-en-eieren spellen tonen de effectiviteit, efficiëntie en interpreteerbaarheid van het NLRL-framework in diverse toepassingen. Onze code zal worden vrijgegeven op https://github.com/waterhorse1/Natural-language-RL.
English
Reinforcement Learning (RL) mathematically formulates decision-making with
Markov Decision Process (MDP). With MDPs, researchers have achieved remarkable
breakthroughs across various domains, including games, robotics, and language
models. This paper seeks a new possibility, Natural Language Reinforcement
Learning (NLRL), by extending traditional MDP to natural language-based
representation space. Specifically, NLRL innovatively redefines RL principles,
including task objectives, policy, value function, Bellman equation, and policy
iteration, into their language counterparts. With recent advancements in large
language models (LLMs), NLRL can be practically implemented to achieve RL-like
policy and value improvement by either pure prompting or gradient-based
training. Experiments over Maze, Breakthrough, and Tic-Tac-Toe games
demonstrate the effectiveness, efficiency, and interpretability of the NLRL
framework among diverse use cases. Our code will be released at
https://github.com/waterhorse1/Natural-language-RL.Summary
AI-Generated Summary