Voorbij het zicht: Het verfijnen van generalistische robotbeleidsregels met heterogene sensoren via taalverankering
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding
January 8, 2025
Auteurs: Joshua Jones, Oier Mees, Carmelo Sferrazza, Kyle Stachowicz, Pieter Abbeel, Sergey Levine
cs.AI
Samenvatting
Het interacteren met de wereld is een meervoudige zintuiglijke ervaring: het bereiken van effectieve algemene interactie vereist het benutten van alle beschikbare modaliteiten - waaronder visie, aanraking en audio - om lacunes op te vullen vanuit gedeeltelijke observatie. Bijvoorbeeld, wanneer het zicht belemmerd is bij het reiken in een tas, moet een robot vertrouwen op zijn zintuigen van aanraking en geluid. Echter, geavanceerde generalistische robotbeleidslijnen worden typisch getraind op grote datasets om robotacties te voorspellen uitsluitend op basis van visuele en proprioceptieve observaties. In dit werk stellen we FuSe voor, een nieuw benadering die het fijnafstemmen van visuomotorische generalistische beleidslijnen op heterogene sensor modaliteiten waarvoor grote datasets niet direct beschikbaar zijn, mogelijk maakt door natuurlijke taal te benutten als een gemeenschappelijke cross-modale grondslag. We combineren een multimodale contrastieve verliesfunctie met een sensorisch-gegronde taalgeneratieverlies om hoog-niveau semantiek te coderen. In de context van robotmanipulatie tonen we aan dat FuSe het uitvoeren van uitdagende taken mogelijk maakt die vereisen dat er gezamenlijk wordt geredeneerd over modaliteiten zoals visie, aanraking en geluid in een zero-shot omgeving, zoals multimodale aansturing, compositorische cross-modale aansturing en beschrijvingen van objecten waarmee het interageert. We tonen aan dat hetzelfde recept van toepassing is op zeer verschillende generalistische beleidslijnen, inclusief zowel diffusie-gebaseerde generalistische beleidslijnen als grote visie-taal-actie (VLA) modellen. Uitgebreide experimenten in de echte wereld tonen aan dat FuSe in staat is om succespercentages met meer dan 20% te verhogen in vergelijking met alle overwogen baselines.
English
Interacting with the world is a multi-sensory experience: achieving effective
general-purpose interaction requires making use of all available modalities --
including vision, touch, and audio -- to fill in gaps from partial observation.
For example, when vision is occluded reaching into a bag, a robot should rely
on its senses of touch and sound. However, state-of-the-art generalist robot
policies are typically trained on large datasets to predict robot actions
solely from visual and proprioceptive observations. In this work, we propose
FuSe, a novel approach that enables finetuning visuomotor generalist policies
on heterogeneous sensor modalities for which large datasets are not readily
available by leveraging natural language as a common cross-modal grounding. We
combine a multimodal contrastive loss with a sensory-grounded language
generation loss to encode high-level semantics. In the context of robot
manipulation, we show that FuSe enables performing challenging tasks that
require reasoning jointly over modalities such as vision, touch, and sound in a
zero-shot setting, such as multimodal prompting, compositional cross-modal
prompting, and descriptions of objects it interacts with. We show that the same
recipe is applicable to widely different generalist policies, including both
diffusion-based generalist policies and large vision-language-action (VLA)
models. Extensive experiments in the real world show that FuSeis able to
increase success rates by over 20% compared to all considered baselines.Summary
AI-Generated Summary