Além da Visão: Ajuste Fino de Políticas de Robô Generalistas com Sensores Heterogêneos via Ancoragem Linguística

Resumo

Interagir com o mundo é uma experiência multi-sensorial: alcançar uma interação eficaz de propósito geral requer o uso de todas as modalidades disponíveis - incluindo visão, toque e áudio - para preencher lacunas a partir de observações parciais. Por exemplo, quando a visão está obstruída ao alcançar algo em uma bolsa, um robô deve confiar em seus sentidos de toque e som. No entanto, as políticas de robô generalistas de ponta geralmente são treinadas em grandes conjuntos de dados para prever ações do robô exclusivamente a partir de observações visuais e proprioceptivas. Neste trabalho, propomos FuSe, uma abordagem inovadora que permite ajustar finamente políticas generalistas visuomotoras em modalidades de sensores heterogêneas para as quais grandes conjuntos de dados não estão prontamente disponíveis, aproveitando a linguagem natural como uma base comum de cruzamento modal. Combinamos uma perda contrastiva multimodal com uma perda de geração de linguagem fundamentada em sensores para codificar semântica de alto nível. No contexto da manipulação de robôs, mostramos que FuSe permite realizar tarefas desafiadoras que exigem raciocínio conjunto sobre modalidades como visão, toque e som em um cenário de zero-shot, como solicitação multimodal, solicitação cruzada composicional e descrições dos objetos com os quais interage. Demonstramos que a mesma abordagem é aplicável a políticas generalistas amplamente diferentes, incluindo políticas generalistas baseadas em difusão e modelos de visão-linguagem-ação (VLA) de grande porte. Experimentos extensivos no mundo real mostram que FuSe é capaz de aumentar as taxas de sucesso em mais de 20% em comparação com todas as bases consideradas.

English

Interacting with the world is a multi-sensory experience: achieving effective general-purpose interaction requires making use of all available modalities -- including vision, touch, and audio -- to fill in gaps from partial observation. For example, when vision is occluded reaching into a bag, a robot should rely on its senses of touch and sound. However, state-of-the-art generalist robot policies are typically trained on large datasets to predict robot actions solely from visual and proprioceptive observations. In this work, we propose FuSe, a novel approach that enables finetuning visuomotor generalist policies on heterogeneous sensor modalities for which large datasets are not readily available by leveraging natural language as a common cross-modal grounding. We combine a multimodal contrastive loss with a sensory-grounded language generation loss to encode high-level semantics. In the context of robot manipulation, we show that FuSe enables performing challenging tasks that require reasoning jointly over modalities such as vision, touch, and sound in a zero-shot setting, such as multimodal prompting, compositional cross-modal prompting, and descriptions of objects it interacts with. We show that the same recipe is applicable to widely different generalist policies, including both diffusion-based generalist policies and large vision-language-action (VLA) models. Extensive experiments in the real world show that FuSeis able to increase success rates by over 20% compared to all considered baselines.

Além da Visão: Ajuste Fino de Políticas de Robô Generalistas com Sensores Heterogêneos via Ancoragem Linguística

Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding

Resumo

Summary

Support