Apprendimento per Rinforzo con Linguaggio Naturale
Natural Language Reinforcement Learning
November 21, 2024
Autori: Xidong Feng, Ziyu Wan, Haotian Fu, Bo Liu, Mengyue Yang, Girish A. Koushik, Zhiyuan Hu, Ying Wen, Jun Wang
cs.AI
Abstract
Il Reinforcement Learning (RL) formula matematicamente il processo decisionale con il Processo Decisionale di Markov (MDP). Con i MDP, i ricercatori hanno ottenuto notevoli progressi in vari settori, tra cui giochi, robotica e modelli linguistici. Questo articolo cerca una nuova possibilità, il Reinforcement Learning basato sul Linguaggio Naturale (NLRL), estendendo il tradizionale MDP allo spazio di rappresentazione basato sul linguaggio naturale. In particolare, il NLRL ridefinisce in modo innovativo i principi del RL, inclusi gli obiettivi del compito, la policy, la funzione di valore, l'equazione di Bellman e l'iterazione della policy, nei loro corrispettivi linguistici. Con i recenti progressi nei grandi modelli linguistici (LLM), il NLRL può essere implementato praticamente per ottenere un miglioramento della policy e del valore simile al RL tramite semplici sollecitazioni o addestramento basato su gradienti. Gli esperimenti su giochi come Maze, Breakthrough e Tris dimostrano l'efficacia, l'efficienza e l'interpretabilità del framework NLRL tra diversi casi d'uso. Il nostro codice sarà rilasciato su https://github.com/waterhorse1/Natural-language-RL.
English
Reinforcement Learning (RL) mathematically formulates decision-making with
Markov Decision Process (MDP). With MDPs, researchers have achieved remarkable
breakthroughs across various domains, including games, robotics, and language
models. This paper seeks a new possibility, Natural Language Reinforcement
Learning (NLRL), by extending traditional MDP to natural language-based
representation space. Specifically, NLRL innovatively redefines RL principles,
including task objectives, policy, value function, Bellman equation, and policy
iteration, into their language counterparts. With recent advancements in large
language models (LLMs), NLRL can be practically implemented to achieve RL-like
policy and value improvement by either pure prompting or gradient-based
training. Experiments over Maze, Breakthrough, and Tic-Tac-Toe games
demonstrate the effectiveness, efficiency, and interpretability of the NLRL
framework among diverse use cases. Our code will be released at
https://github.com/waterhorse1/Natural-language-RL.Summary
AI-Generated Summary