RL Zero: Linguaggio a Zero Colpi - Comportamenti senza alcuna Supervisione
RL Zero: Zero-Shot Language to Behaviors without any Supervision
December 7, 2024
Autori: Harshit Sikchi, Siddhant Agarwal, Pranaya Jajoo, Samyak Parajuli, Caleb Chuck, Max Rudolph, Peter Stone, Amy Zhang, Scott Niekum
cs.AI
Abstract
Le ricompense rimangono un modo incomprensibile per specificare compiti per il Reinforcement Learning, poiché gli esseri umani spesso non sono in grado di prevedere il comportamento ottimale di una qualsiasi funzione di ricompensa, portando a una progettazione di ricompense scadente e a manipolazioni delle ricompense. Il linguaggio presenta un modo accattivante per comunicare l'intento agli agenti e bypassare la progettazione delle ricompense, ma gli sforzi precedenti in tal senso sono stati limitati da costosi e non scalabili sforzi di etichettatura. In questo lavoro, proponiamo un metodo per un'alternativa completamente non supervisionata per ancorare istruzioni linguistiche in modo zero-shot per ottenere politiche. Presentiamo una soluzione che prende la forma di immaginare, proiettare e imitare: l'agente immagina la sequenza di osservazioni corrispondente alla descrizione linguistica di un compito, proietta la sequenza immaginata nel nostro dominio target e la collega a una politica. I modelli video-linguaggio ci consentono di immaginare descrizioni di compiti che sfruttano la conoscenza dei compiti appresi da mapping video-testo su scala internet. La sfida rimane nell'ancorare queste generazioni a una politica. In questo lavoro, mostriamo che possiamo raggiungere una politica linguaggio-comportamento zero-shot ancorando prima le sequenze immaginate nelle osservazioni reali di un agente RL non supervisionato e utilizzando una soluzione in forma chiusa per l'apprendimento per imitazione che consente all'agente RL di imitare le osservazioni ancorate. Il nostro metodo, RLZero, è il primo a nostra conoscenza a mostrare abilità di generazione di comportamento da linguaggio a zero-shot senza alcuna supervisione su una varietà di compiti in domini simulati. Mostriamo inoltre che RLZero può generare politiche zero-shot anche da video con corpi incrociati come quelli estratti da YouTube.
English
Rewards remain an uninterpretable way to specify tasks for Reinforcement
Learning, as humans are often unable to predict the optimal behavior of any
given reward function, leading to poor reward design and reward hacking.
Language presents an appealing way to communicate intent to agents and bypass
reward design, but prior efforts to do so have been limited by costly and
unscalable labeling efforts. In this work, we propose a method for a completely
unsupervised alternative to grounding language instructions in a zero-shot
manner to obtain policies. We present a solution that takes the form of
imagine, project, and imitate: The agent imagines the observation sequence
corresponding to the language description of a task, projects the imagined
sequence to our target domain, and grounds it to a policy. Video-language
models allow us to imagine task descriptions that leverage knowledge of tasks
learned from internet-scale video-text mappings. The challenge remains to
ground these generations to a policy. In this work, we show that we can achieve
a zero-shot language-to-behavior policy by first grounding the imagined
sequences in real observations of an unsupervised RL agent and using a
closed-form solution to imitation learning that allows the RL agent to mimic
the grounded observations. Our method, RLZero, is the first to our knowledge to
show zero-shot language to behavior generation abilities without any
supervision on a variety of tasks on simulated domains. We further show that
RLZero can also generate policies zero-shot from cross-embodied videos such as
those scraped from YouTube.Summary
AI-Generated Summary