Apprendimento per Rinforzo con Linguaggio Naturale

Natural Language Reinforcement Learning

November 21, 2024
Autori: Xidong Feng, Ziyu Wan, Haotian Fu, Bo Liu, Mengyue Yang, Girish A. Koushik, Zhiyuan Hu, Ying Wen, Jun Wang
cs.AI

Abstract

Il Reinforcement Learning (RL) formula matematicamente il processo decisionale con il Processo Decisionale di Markov (MDP). Con i MDP, i ricercatori hanno ottenuto notevoli progressi in vari settori, tra cui giochi, robotica e modelli linguistici. Questo articolo cerca una nuova possibilità, il Reinforcement Learning basato sul Linguaggio Naturale (NLRL), estendendo il tradizionale MDP allo spazio di rappresentazione basato sul linguaggio naturale. In particolare, il NLRL ridefinisce in modo innovativo i principi del RL, inclusi gli obiettivi del compito, la policy, la funzione di valore, l'equazione di Bellman e l'iterazione della policy, nei loro corrispettivi linguistici. Con i recenti progressi nei grandi modelli linguistici (LLM), il NLRL può essere implementato praticamente per ottenere un miglioramento della policy e del valore simile al RL tramite semplici sollecitazioni o addestramento basato su gradienti. Gli esperimenti su giochi come Maze, Breakthrough e Tris dimostrano l'efficacia, l'efficienza e l'interpretabilità del framework NLRL tra diversi casi d'uso. Il nostro codice sarà rilasciato su https://github.com/waterhorse1/Natural-language-RL.
English
Reinforcement Learning (RL) mathematically formulates decision-making with Markov Decision Process (MDP). With MDPs, researchers have achieved remarkable breakthroughs across various domains, including games, robotics, and language models. This paper seeks a new possibility, Natural Language Reinforcement Learning (NLRL), by extending traditional MDP to natural language-based representation space. Specifically, NLRL innovatively redefines RL principles, including task objectives, policy, value function, Bellman equation, and policy iteration, into their language counterparts. With recent advancements in large language models (LLMs), NLRL can be practically implemented to achieve RL-like policy and value improvement by either pure prompting or gradient-based training. Experiments over Maze, Breakthrough, and Tic-Tac-Toe games demonstrate the effectiveness, efficiency, and interpretability of the NLRL framework among diverse use cases. Our code will be released at https://github.com/waterhorse1/Natural-language-RL.

Summary

AI-Generated Summary

PDF252November 22, 2024