도움이 되는 DoggyBot: 다리를 이용한 로봇과 시각-언어 모델을 활용한 오픈 월드 물건 가져오기
Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models
September 30, 2024
저자: Qi Wu, Zipeng Fu, Xuxin Cheng, Xiaolong Wang, Chelsea Finn
cs.AI
초록
학습 기반 방법은 네 다리 보행에 강력한 성능을 달성했습니다. 그러나 몇 가지 도전 과제로 인해 네 다리로 환경 및 인간과 상호 작용이 필요한 유용한 실내 기술을 학습하는 것이 어렵습니다: 조작을 위한 종단 효과기 부재, 시뮬레이션 데이터만을 사용한 제한된 의미 이해, 그리고 실내 환경에서의 접근성 및 이동 가능성이 낮습니다. 우리는 실내 환경에서의 네 다리 이동식 조작을 위한 시스템을 제시합니다. 이 시스템은 물체 조작을 위한 전면 그리퍼, 기민한 기술을 위해 시뮬레이션에서 이고중심 깊이를 사용하여 훈련된 저수준 컨트롤러, 그리고 의미 이해와 명령 생성을 위해 제 3자 시야 피시아이 및 이고중심 RGB 카메라를 사용한 사전 훈련된 비전-언어 모델(VLMs)을 사용합니다. 우리는 실제 데이터 수집이나 훈련 없이 두 개의 보지 않은 환경에서 시스템을 평가했습니다. 우리의 시스템은 이러한 환경에 대해 제로샷 일반화할 수 있으며, 퀸 사이즈 침대를 넘어서 장난감을 가져오는 사용자 명령을 따르는 등의 작업을 60%의 성공률로 완료할 수 있습니다. 프로젝트 웹사이트: https://helpful-doggybot.github.io/
English
Learning-based methods have achieved strong performance for quadrupedal
locomotion. However, several challenges prevent quadrupeds from learning
helpful indoor skills that require interaction with environments and humans:
lack of end-effectors for manipulation, limited semantic understanding using
only simulation data, and low traversability and reachability in indoor
environments. We present a system for quadrupedal mobile manipulation in indoor
environments. It uses a front-mounted gripper for object manipulation, a
low-level controller trained in simulation using egocentric depth for agile
skills like climbing and whole-body tilting, and pre-trained vision-language
models (VLMs) with a third-person fisheye and an egocentric RGB camera for
semantic understanding and command generation. We evaluate our system in two
unseen environments without any real-world data collection or training. Our
system can zero-shot generalize to these environments and complete tasks, like
following user's commands to fetch a randomly placed stuff toy after climbing
over a queen-sized bed, with a 60% success rate. Project website:
https://helpful-doggybot.github.io/Summary
AI-Generated Summary