Het sturen van uw generalisten: Het verbeteren van robotische foundation modellen via waardebegeleiding

Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance

October 17, 2024
Auteurs: Mitsuhiko Nakamoto, Oier Mees, Aviral Kumar, Sergey Levine
cs.AI

Samenvatting

Grote, algemene robotbeleidslijnen die zijn getraind op diverse demonstratiedatasets, hebben zich als opmerkelijk effectief getoond voor het aansturen van verschillende robots in verschillende scènes en voor het verwerven van brede repertoire van manipulatievaardigheden. Echter, de gegevens waarop dergelijke beleidslijnen worden getraind, zijn over het algemeen van gemengde kwaliteit - niet alleen zijn door mensen verzamelde demonstraties onwaarschijnlijk perfect in het uitvoeren van de taak, maar hoe groter de dataset is, hoe moeilijker het is om alleen de hoogste kwaliteit voorbeelden te selecteren. Het blijft ook onduidelijk hoe optimaal gegevens van de ene vorm zijn voor training op een andere vorm. In dit artikel presenteren we een algemene en breed toepasbare aanpak die de prestaties van dergelijke generalistische robotbeleidslijnen bij implementatie verbetert door hun acties opnieuw te rangschikken volgens een waardefunctie die is geleerd via offline RL. Deze aanpak, die we Value-Guided Policy Steering (V-GPS) noemen, is compatibel met een breed scala aan verschillende generalistische beleidslijnen, zonder dat finetuning of zelfs toegang tot de gewichten van het beleid nodig is. We tonen aan dat dezelfde waardefunctie de prestaties van vijf verschillende toonaangevende beleidslijnen met verschillende architecturen kan verbeteren, ook al zijn ze getraind op afzonderlijke datasets, waarbij consistente prestatieverbetering wordt bereikt op meerdere robotplatforms over in totaal 12 taken. Code en video's zijn te vinden op: https://nakamotoo.github.io/V-GPS
English
Large, general-purpose robotic policies trained on diverse demonstration datasets have been shown to be remarkably effective both for controlling a variety of robots in a range of different scenes, and for acquiring broad repertoires of manipulation skills. However, the data that such policies are trained on is generally of mixed quality -- not only are human-collected demonstrations unlikely to perform the task perfectly, but the larger the dataset is, the harder it is to curate only the highest quality examples. It also remains unclear how optimal data from one embodiment is for training on another embodiment. In this paper, we present a general and broadly applicable approach that enhances the performance of such generalist robot policies at deployment time by re-ranking their actions according to a value function learned via offline RL. This approach, which we call Value-Guided Policy Steering (V-GPS), is compatible with a wide range of different generalist policies, without needing to fine-tune or even access the weights of the policy. We show that the same value function can improve the performance of five different state-of-the-art policies with different architectures, even though they were trained on distinct datasets, attaining consistent performance improvement on multiple robotic platforms across a total of 12 tasks. Code and videos can be found at: https://nakamotoo.github.io/V-GPS

Summary

AI-Generated Summary

PDF11November 16, 2024