ChatPaper.aiChatPaper

시야 너머: 이질적 센서를 통해 언어 기반으로 일반적인 로봇 정책을 세부 조정하기

Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding

January 8, 2025
저자: Joshua Jones, Oier Mees, Carmelo Sferrazza, Kyle Stachowicz, Pieter Abbeel, Sergey Levine
cs.AI

초록

세계와 상호 작용하는 것은 다중 감각 체험이다: 효과적인 일반적 상호 작용을 달성하려면 시각, 촉각 및 음향을 포함한 모든 이용 가능한 모달리티를 활용하여 부분적 관찰로부터의 갭을 메꾸어야 한다. 예를 들어, 시각이 가려진 상태에서 가방 속으로 손을 넣을 때, 로봇은 촉각과 소리 감각에 의존해야 한다. 그러나 최첨단의 일반적 로봇 정책은 일반적으로 대규모 데이터셋에서 훈련되어 로봇 행동을 시각적 및 고유 위치 관측만으로 예측한다. 본 논문에서는 대규모 데이터셋이 즉시 이용 가능하지 않은 이질적 센서 모달리티에 대해 자연어를 공통 교차 모달 그라운딩으로 활용하여 시각운동 일반적 정책을 세밀하게 조정할 수 있는 혁신적인 접근 방식인 FuSe를 제안한다. 우리는 다중 모달 대조 손실과 감각 중심 언어 생성 손실을 결합하여 고수준 의미를 인코딩한다. 로봇 조작의 맥락에서, FuSe가 시각, 촉각 및 소리와 같은 모달리티를 공동으로 추론해야 하는 어려운 작업을 수행할 수 있도록 하는 것을 보여준다. 이는 다중 모달 프롬프팅, 구성적 교차 모달 프롬프팅, 그리고 상호 작용하는 객체에 대한 설명과 같은 작업을 포함한다. 우리는 동일한 방법이 확산 기반 일반적 정책과 대규모 시각-언어-행동(VLA) 모델을 포함한 다양한 일반적 정책에 적용 가능함을 보여준다. 현실 세계에서의 광범위한 실험 결과는 FuSe가 모든 고려된 기준선 대비 성공률을 20% 이상 향상시킬 수 있다는 것을 보여준다.
English
Interacting with the world is a multi-sensory experience: achieving effective general-purpose interaction requires making use of all available modalities -- including vision, touch, and audio -- to fill in gaps from partial observation. For example, when vision is occluded reaching into a bag, a robot should rely on its senses of touch and sound. However, state-of-the-art generalist robot policies are typically trained on large datasets to predict robot actions solely from visual and proprioceptive observations. In this work, we propose FuSe, a novel approach that enables finetuning visuomotor generalist policies on heterogeneous sensor modalities for which large datasets are not readily available by leveraging natural language as a common cross-modal grounding. We combine a multimodal contrastive loss with a sensory-grounded language generation loss to encode high-level semantics. In the context of robot manipulation, we show that FuSe enables performing challenging tasks that require reasoning jointly over modalities such as vision, touch, and sound in a zero-shot setting, such as multimodal prompting, compositional cross-modal prompting, and descriptions of objects it interacts with. We show that the same recipe is applicable to widely different generalist policies, including both diffusion-based generalist policies and large vision-language-action (VLA) models. Extensive experiments in the real world show that FuSeis able to increase success rates by over 20% compared to all considered baselines.

Summary

AI-Generated Summary

PDF32January 16, 2025