Natürliche Sprachverstärkungslernen
Natural Language Reinforcement Learning
November 21, 2024
Autoren: Xidong Feng, Ziyu Wan, Haotian Fu, Bo Liu, Mengyue Yang, Girish A. Koushik, Zhiyuan Hu, Ying Wen, Jun Wang
cs.AI
Zusammenfassung
Reinforcement Learning (RL) formuliert mathematisch Entscheidungsfindung mit dem Markov-Entscheidungsprozess (MDP). Mit MDPs haben Forscher bemerkenswerte Durchbrüche in verschiedenen Bereichen erzielt, darunter Spiele, Robotik und Sprachmodelle. Dieses Papier untersucht eine neue Möglichkeit, Natural Language Reinforcement Learning (NLRL), indem es den traditionellen MDP auf den Raum natürlichsprachlicher Darstellung erweitert. Speziell definiert NLRL RL-Prinzipien, einschließlich Aufgabenziele, Richtlinie, Wertefunktion, Bellman-Gleichung und Richtlinieniteration, innovativ in ihre sprachlichen Entsprechungen um. Mit den jüngsten Fortschritten bei großen Sprachmodellen (LLMs) kann NLRL praktisch implementiert werden, um RL-ähnliche Richtlinien- und Wertverbesserungen durch reines Auffordern oder gradientenbasiertes Training zu erzielen. Experimente über Labyrinth-, Durchbruch- und Tic-Tac-Toe-Spiele zeigen die Wirksamkeit, Effizienz und Interpretierbarkeit des NLRL-Rahmens in verschiedenen Anwendungsfällen. Unser Code wird unter https://github.com/waterhorse1/Natural-language-RL veröffentlicht.
English
Reinforcement Learning (RL) mathematically formulates decision-making with
Markov Decision Process (MDP). With MDPs, researchers have achieved remarkable
breakthroughs across various domains, including games, robotics, and language
models. This paper seeks a new possibility, Natural Language Reinforcement
Learning (NLRL), by extending traditional MDP to natural language-based
representation space. Specifically, NLRL innovatively redefines RL principles,
including task objectives, policy, value function, Bellman equation, and policy
iteration, into their language counterparts. With recent advancements in large
language models (LLMs), NLRL can be practically implemented to achieve RL-like
policy and value improvement by either pure prompting or gradient-based
training. Experiments over Maze, Breakthrough, and Tic-Tac-Toe games
demonstrate the effectiveness, efficiency, and interpretability of the NLRL
framework among diverse use cases. Our code will be released at
https://github.com/waterhorse1/Natural-language-RL.Summary
AI-Generated Summary