Além da Visão: Ajuste Fino de Políticas de Robô Generalistas com Sensores Heterogêneos via Ancoragem Linguística
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding
January 8, 2025
Autores: Joshua Jones, Oier Mees, Carmelo Sferrazza, Kyle Stachowicz, Pieter Abbeel, Sergey Levine
cs.AI
Resumo
Interagir com o mundo é uma experiência multi-sensorial: alcançar uma interação eficaz de propósito geral requer o uso de todas as modalidades disponíveis - incluindo visão, toque e áudio - para preencher lacunas a partir de observações parciais. Por exemplo, quando a visão está obstruída ao alcançar algo em uma bolsa, um robô deve confiar em seus sentidos de toque e som. No entanto, as políticas de robô generalistas de ponta geralmente são treinadas em grandes conjuntos de dados para prever ações do robô exclusivamente a partir de observações visuais e proprioceptivas. Neste trabalho, propomos FuSe, uma abordagem inovadora que permite ajustar finamente políticas generalistas visuomotoras em modalidades de sensores heterogêneas para as quais grandes conjuntos de dados não estão prontamente disponíveis, aproveitando a linguagem natural como uma base comum de cruzamento modal. Combinamos uma perda contrastiva multimodal com uma perda de geração de linguagem fundamentada em sensores para codificar semântica de alto nível. No contexto da manipulação de robôs, mostramos que FuSe permite realizar tarefas desafiadoras que exigem raciocínio conjunto sobre modalidades como visão, toque e som em um cenário de zero-shot, como solicitação multimodal, solicitação cruzada composicional e descrições dos objetos com os quais interage. Demonstramos que a mesma abordagem é aplicável a políticas generalistas amplamente diferentes, incluindo políticas generalistas baseadas em difusão e modelos de visão-linguagem-ação (VLA) de grande porte. Experimentos extensivos no mundo real mostram que FuSe é capaz de aumentar as taxas de sucesso em mais de 20% em comparação com todas as bases consideradas.
English
Interacting with the world is a multi-sensory experience: achieving effective
general-purpose interaction requires making use of all available modalities --
including vision, touch, and audio -- to fill in gaps from partial observation.
For example, when vision is occluded reaching into a bag, a robot should rely
on its senses of touch and sound. However, state-of-the-art generalist robot
policies are typically trained on large datasets to predict robot actions
solely from visual and proprioceptive observations. In this work, we propose
FuSe, a novel approach that enables finetuning visuomotor generalist policies
on heterogeneous sensor modalities for which large datasets are not readily
available by leveraging natural language as a common cross-modal grounding. We
combine a multimodal contrastive loss with a sensory-grounded language
generation loss to encode high-level semantics. In the context of robot
manipulation, we show that FuSe enables performing challenging tasks that
require reasoning jointly over modalities such as vision, touch, and sound in a
zero-shot setting, such as multimodal prompting, compositional cross-modal
prompting, and descriptions of objects it interacts with. We show that the same
recipe is applicable to widely different generalist policies, including both
diffusion-based generalist policies and large vision-language-action (VLA)
models. Extensive experiments in the real world show that FuSeis able to
increase success rates by over 20% compared to all considered baselines.Summary
AI-Generated Summary