За пределами зрения: Доводка общих политик роботов с разнородными датчиками через языковую привязку
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding
January 8, 2025
Авторы: Joshua Jones, Oier Mees, Carmelo Sferrazza, Kyle Stachowicz, Pieter Abbeel, Sergey Levine
cs.AI
Аннотация
Взаимодействие с миром - это многозначительный опыт: достижение эффективного взаимодействия общего назначения требует использования всех доступных модальностей - включая зрение, осязание и звук - для заполнения пробелов из-за частичного наблюдения. Например, когда зрение заслонено при попытке достать что-то из сумки, робот должен полагаться на свои осязание и слух. Однако современные общие политики роботов обычно обучаются на больших наборах данных для прогнозирования действий робота исключительно на основе визуальных и проприоцептивных наблюдений. В данной работе мы предлагаем FuSe, новый подход, который позволяет донастраивать общие визуомоторные политики на гетерогенных модальностях сенсоров, для которых большие наборы данных не доступны, используя естественный язык в качестве общего кросс-модального опорного пункта. Мы комбинируем мультимодальную контрастную потерю с потерей генерации языка, связанного с сенсорикой, для кодирования семантики высокого уровня. В контексте манипуляции роботов мы показываем, что FuSe позволяет выполнять сложные задачи, требующие совместного рассуждения по модальностям, таким как зрение, осязание и звук, в нулевой ситуации, такие как мультимодальное подталкивание, композиционное кросс-модальное подталкивание и описания объектов, с которыми взаимодействует робот. Мы показываем, что тот же подход применим к широко различным общим политикам, включая как общие политики на основе диффузии, так и большие модели зрение-язык-действие (VLA). Обширные эксперименты в реальном мире показывают, что FuSe способен увеличить процент успешных результатов на более чем 20% по сравнению со всеми рассматриваемыми базовыми вариантами.
English
Interacting with the world is a multi-sensory experience: achieving effective
general-purpose interaction requires making use of all available modalities --
including vision, touch, and audio -- to fill in gaps from partial observation.
For example, when vision is occluded reaching into a bag, a robot should rely
on its senses of touch and sound. However, state-of-the-art generalist robot
policies are typically trained on large datasets to predict robot actions
solely from visual and proprioceptive observations. In this work, we propose
FuSe, a novel approach that enables finetuning visuomotor generalist policies
on heterogeneous sensor modalities for which large datasets are not readily
available by leveraging natural language as a common cross-modal grounding. We
combine a multimodal contrastive loss with a sensory-grounded language
generation loss to encode high-level semantics. In the context of robot
manipulation, we show that FuSe enables performing challenging tasks that
require reasoning jointly over modalities such as vision, touch, and sound in a
zero-shot setting, such as multimodal prompting, compositional cross-modal
prompting, and descriptions of objects it interacts with. We show that the same
recipe is applicable to widely different generalist policies, including both
diffusion-based generalist policies and large vision-language-action (VLA)
models. Extensive experiments in the real world show that FuSeis able to
increase success rates by over 20% compared to all considered baselines.Summary
AI-Generated Summary