ChatPaper.aiChatPaper

RL Zero: 감독 없이 언어에서 행동으로의 영 제로

RL Zero: Zero-Shot Language to Behaviors without any Supervision

December 7, 2024
저자: Harshit Sikchi, Siddhant Agarwal, Pranaya Jajoo, Samyak Parajuli, Caleb Chuck, Max Rudolph, Peter Stone, Amy Zhang, Scott Niekum
cs.AI

초록

보상은 강화 학습을 위한 작업을 지정하는 불가해한 방법으로 남아 있습니다. 인간들은 종종 어떤 보상 함수의 최적 행동을 예측할 수 없어서 부적절한 보상 설계와 보상 해킹으로 이어집니다. 언어는 에이전트에게 의도를 전달하고 보상 설계를 우회하는 매력적인 방법을 제시합니다. 그러나 이를 위한 이전 노력은 비용이 많이 들고 확장이 어려워 제한되어 왔습니다. 본 연구에서는 완전 비지도 방식의 언어 지침을 제로샷 방식으로 정책을 얻기 위한 대안으로 제안합니다. 우리는 상상, 투영, 모방의 형태를 취하는 해결책을 제시합니다: 에이전트는 작업의 언어 설명에 해당하는 관측 순서를 상상하고, 상상된 순서를 우리의 대상 도메인으로 투영하고, 정책에 그것을 근거로 합니다. 비디오-언어 모델을 사용하여 인터넷 규모의 비디오-텍스트 매핑에서 학습한 작업 지식을 활용하는 작업 설명을 상상할 수 있습니다. 이러한 생성물을 정책에 근거를 두는 것이 여전히 과제입니다. 본 연구에서는 상상된 순서를 비지도 강화 학습 에이전트의 실제 관측에 먼저 근거를 두고, 근거를 두어 RL 에이전트가 근거를 두는 관측을 모방할 수 있는 모방 학습의 닫힌 형태 솔루션을 사용하여 제로샷 언어-행동 정책을 달성할 수 있다는 것을 보여줍니다. 우리의 지식으로는 RLZero라는 우리의 방법은 시뮬레이션 도메인의 다양한 작업에서 어떠한 감독도 없이 제로샷 언어-행동 생성 능력을 보여주는 첫 번째 방법입니다. 또한 RLZero가 YouTube에서 스크랩된 교차 구현 비디오로부터 제로샷으로 정책을 생성할 수 있다는 것을 보여줍니다.
English
Rewards remain an uninterpretable way to specify tasks for Reinforcement Learning, as humans are often unable to predict the optimal behavior of any given reward function, leading to poor reward design and reward hacking. Language presents an appealing way to communicate intent to agents and bypass reward design, but prior efforts to do so have been limited by costly and unscalable labeling efforts. In this work, we propose a method for a completely unsupervised alternative to grounding language instructions in a zero-shot manner to obtain policies. We present a solution that takes the form of imagine, project, and imitate: The agent imagines the observation sequence corresponding to the language description of a task, projects the imagined sequence to our target domain, and grounds it to a policy. Video-language models allow us to imagine task descriptions that leverage knowledge of tasks learned from internet-scale video-text mappings. The challenge remains to ground these generations to a policy. In this work, we show that we can achieve a zero-shot language-to-behavior policy by first grounding the imagined sequences in real observations of an unsupervised RL agent and using a closed-form solution to imitation learning that allows the RL agent to mimic the grounded observations. Our method, RLZero, is the first to our knowledge to show zero-shot language to behavior generation abilities without any supervision on a variety of tasks on simulated domains. We further show that RLZero can also generate policies zero-shot from cross-embodied videos such as those scraped from YouTube.

Summary

AI-Generated Summary

PDF52December 10, 2024