Het sturen van uw generalisten: Het verbeteren van robotische foundation modellen via waardebegeleiding
Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
October 17, 2024
Auteurs: Mitsuhiko Nakamoto, Oier Mees, Aviral Kumar, Sergey Levine
cs.AI
Samenvatting
Grote, algemene robotbeleidslijnen die zijn getraind op diverse demonstratiedatasets, hebben zich als opmerkelijk effectief getoond voor het aansturen van verschillende robots in verschillende scènes en voor het verwerven van brede repertoire van manipulatievaardigheden. Echter, de gegevens waarop dergelijke beleidslijnen worden getraind, zijn over het algemeen van gemengde kwaliteit - niet alleen zijn door mensen verzamelde demonstraties onwaarschijnlijk perfect in het uitvoeren van de taak, maar hoe groter de dataset is, hoe moeilijker het is om alleen de hoogste kwaliteit voorbeelden te selecteren. Het blijft ook onduidelijk hoe optimaal gegevens van de ene vorm zijn voor training op een andere vorm. In dit artikel presenteren we een algemene en breed toepasbare aanpak die de prestaties van dergelijke generalistische robotbeleidslijnen bij implementatie verbetert door hun acties opnieuw te rangschikken volgens een waardefunctie die is geleerd via offline RL. Deze aanpak, die we Value-Guided Policy Steering (V-GPS) noemen, is compatibel met een breed scala aan verschillende generalistische beleidslijnen, zonder dat finetuning of zelfs toegang tot de gewichten van het beleid nodig is. We tonen aan dat dezelfde waardefunctie de prestaties van vijf verschillende toonaangevende beleidslijnen met verschillende architecturen kan verbeteren, ook al zijn ze getraind op afzonderlijke datasets, waarbij consistente prestatieverbetering wordt bereikt op meerdere robotplatforms over in totaal 12 taken. Code en video's zijn te vinden op: https://nakamotoo.github.io/V-GPS
English
Large, general-purpose robotic policies trained on diverse demonstration
datasets have been shown to be remarkably effective both for controlling a
variety of robots in a range of different scenes, and for acquiring broad
repertoires of manipulation skills. However, the data that such policies are
trained on is generally of mixed quality -- not only are human-collected
demonstrations unlikely to perform the task perfectly, but the larger the
dataset is, the harder it is to curate only the highest quality examples. It
also remains unclear how optimal data from one embodiment is for training on
another embodiment. In this paper, we present a general and broadly applicable
approach that enhances the performance of such generalist robot policies at
deployment time by re-ranking their actions according to a value function
learned via offline RL. This approach, which we call Value-Guided Policy
Steering (V-GPS), is compatible with a wide range of different generalist
policies, without needing to fine-tune or even access the weights of the
policy. We show that the same value function can improve the performance of
five different state-of-the-art policies with different architectures, even
though they were trained on distinct datasets, attaining consistent performance
improvement on multiple robotic platforms across a total of 12 tasks. Code and
videos can be found at: https://nakamotoo.github.io/V-GPSSummary
AI-Generated Summary