Apprentissage par Renforcement en Langage Naturel
Natural Language Reinforcement Learning
November 21, 2024
Auteurs: Xidong Feng, Ziyu Wan, Haotian Fu, Bo Liu, Mengyue Yang, Girish A. Koushik, Zhiyuan Hu, Ying Wen, Jun Wang
cs.AI
Résumé
L'Apprentissage par Renforcement (RL) formule mathématiquement la prise de décision avec le Processus de Décision Markovien (MDP). Avec les MDP, les chercheurs ont réalisé des percées remarquables dans divers domaines, y compris les jeux, la robotique et les modèles de langage. Cet article explore une nouvelle possibilité, l'Apprentissage par Renforcement en Langage Naturel (NLRL), en étendant le MDP traditionnel à un espace de représentation basé sur le langage naturel. Plus précisément, le NLRL redéfinit de manière innovante les principes de l'RL, y compris les objectifs de la tâche, la politique, la fonction de valeur, l'équation de Bellman et l'itération de politique, en leurs équivalents linguistiques. Avec les récents progrès des grands modèles de langage (LLMs), le NLRL peut être mis en œuvre de manière pratique pour atteindre une amélioration de la politique et de la valeur à la manière de l'RL, soit par simple incitation, soit par un entraînement basé sur les gradients. Des expériences menées sur des jeux de labyrinthe, de Breakthrough et de Morpion démontrent l'efficacité, l'efficience et l'interprétabilité du cadre NLRL parmi divers cas d'utilisation. Notre code sera publié sur https://github.com/waterhorse1/Apprentissage-par-Renforcement-en-Langage-Naturel.
English
Reinforcement Learning (RL) mathematically formulates decision-making with
Markov Decision Process (MDP). With MDPs, researchers have achieved remarkable
breakthroughs across various domains, including games, robotics, and language
models. This paper seeks a new possibility, Natural Language Reinforcement
Learning (NLRL), by extending traditional MDP to natural language-based
representation space. Specifically, NLRL innovatively redefines RL principles,
including task objectives, policy, value function, Bellman equation, and policy
iteration, into their language counterparts. With recent advancements in large
language models (LLMs), NLRL can be practically implemented to achieve RL-like
policy and value improvement by either pure prompting or gradient-based
training. Experiments over Maze, Breakthrough, and Tic-Tac-Toe games
demonstrate the effectiveness, efficiency, and interpretability of the NLRL
framework among diverse use cases. Our code will be released at
https://github.com/waterhorse1/Natural-language-RL.Summary
AI-Generated Summary