일반화된 모델을 조정하기: 가치 지침을 통해 로봇 기반 모델 개선하기

Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance

October 17, 2024
저자: Mitsuhiko Nakamoto, Oier Mees, Aviral Kumar, Sergey Levine
cs.AI

초록

다양한 데모 데이터셋에서 훈련된 대규모 일반용 로봇 정책은 다양한 장면에서 로봇을 제어하고 다양한 조작 기술을 습득하는 데 탁월한 효과를 보여주었습니다. 그러나 이러한 정책이 훈련을 받는 데이터는 일반적으로 혼합 품질입니다. 인간이 수집한 데모는 작업을 완벽하게 수행하지 못할 가능성이 높을 뿐만 아니라 데이터셋이 클수록 최상의 예제만 선별하기가 어려울 수 있습니다. 또한 한 구현체에서 얻은 최적의 데이터가 다른 구현체에서 훈련하는 데 얼마나 적합한지는 여전히 명확하지 않습니다. 본 논문에서는 오프라인 강화학습을 통해 학습된 가치 함수에 따라 행동을 다시 순위 지정하여 배포 시 일반적인 로봇 정책의 성능을 향상시키는 일반적이고 널리 적용 가능한 접근 방식을 제시합니다. 이 접근 방식인 가치 지도 정책 조정(Value-Guided Policy Steering, V-GPS)은 다양한 일반용 정책과 호환되며, 정책의 가중치를 세밀하게 조정할 필요가 없거나 심지어 액세스할 필요가 없습니다. 우리는 동일한 가치 함수가 서로 다른 아키텍처로 훈련된 다섯 가지 최첨단 정책의 성능을 향상시킬 수 있음을 보여줍니다. 이 정책들은 서로 다른 데이터셋에서 훈련되었음에도 12가지 작업을 거치며 여러 로봇 플랫폼에서 일관된 성능 향상을 달성했습니다. 코드 및 비디오는 다음 링크에서 확인할 수 있습니다: https://nakamotoo.github.io/V-GPS
English
Large, general-purpose robotic policies trained on diverse demonstration datasets have been shown to be remarkably effective both for controlling a variety of robots in a range of different scenes, and for acquiring broad repertoires of manipulation skills. However, the data that such policies are trained on is generally of mixed quality -- not only are human-collected demonstrations unlikely to perform the task perfectly, but the larger the dataset is, the harder it is to curate only the highest quality examples. It also remains unclear how optimal data from one embodiment is for training on another embodiment. In this paper, we present a general and broadly applicable approach that enhances the performance of such generalist robot policies at deployment time by re-ranking their actions according to a value function learned via offline RL. This approach, which we call Value-Guided Policy Steering (V-GPS), is compatible with a wide range of different generalist policies, without needing to fine-tune or even access the weights of the policy. We show that the same value function can improve the performance of five different state-of-the-art policies with different architectures, even though they were trained on distinct datasets, attaining consistent performance improvement on multiple robotic platforms across a total of 12 tasks. Code and videos can be found at: https://nakamotoo.github.io/V-GPS

Summary

AI-Generated Summary

PDF11November 16, 2024