CANVAS: 직관적 인간-로봇 상호 작용을 위한 상식 인식 내비게이션 시스템
CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction
October 2, 2024
저자: Suhwan Choi, Yongjun Cho, Minchan Kim, Jaeyoon Jung, Myunchul Joe, Yubeen Park, Minseo Kim, Sungwoong Kim, Sungjae Lee, Hwiseong Park, Jiwan Chung, Youngjae Yu
cs.AI
초록
현실 세계에서의 로봇 내비게이션은 목적지에 도달하는 것 이상을 포함하며, 시나리오별 목표를 고려하여 움직임을 최적화해야 합니다. 인간이 이러한 목표를 표현하는 직관적인 방법은 언어 명령이나 대략적인 스케치와 같은 추상적인 신호를 통해 이루어집니다. 이러한 인간의 안내는 세부 사항이 부족하거나 소음이 많을 수 있습니다. 그럼에도 불구하고, 우리는 로봇이 의도한 대로 내비게이션할 것으로 기대합니다. 로봇이 이러한 추상적인 지침을 해석하고 실행하여 인간의 기대에 부합하도록 하려면, 로봇은 인간과 기본적인 내비게이션 개념에 대해 공통의 이해를 공유해야 합니다. 이를 위해 시각적 및 언어적 지침을 결합한 상식적인 내비게이션을 위한 새로운 프레임워크인 CANVAS를 소개합니다. 이 프레임워크의 성공은 모방 학습에 의해 이뤄지며, 로봇이 인간의 내비게이션 행동에서 배울 수 있게 됩니다. 우리는 COMMAND를 제시합니다. 이는 시뮬레이션 환경에서 상식적인 내비게이션 시스템을 훈련시키기 위해 고안된 인간이 주석을 단 내비게이션 결과를 포함한 포괄적인 데이터셋으로, 총 48시간과 219km에 걸쳐 이루어졌습니다. 실험 결과, CANVAS가 소음이 있는 지시에도 강력한 규칙 기반 시스템 ROS NavStack을 모든 환경에서 능가하는 것을 보여주었습니다. 특히, ROS NavStack이 0%의 총 성공률을 기록한 과수원 환경에서 CANVAS는 67%의 총 성공률을 달성했습니다. 또한 CANVAS는 보이지 않는 환경에서도 인간의 시연과 상식적인 제약과 밀접하게 일치합니다. 더 나아가, CANVAS의 실제 세계 적용은 69%의 총 성공률로 인상적인 Sim2Real 전이를 보여주며, 시뮬레이션 환경에서 인간의 시연으로부터 학습하여 실제 세계 응용에 대한 잠재력을 강조합니다.
English
Real-life robot navigation involves more than just reaching a destination; it
requires optimizing movements while addressing scenario-specific goals. An
intuitive way for humans to express these goals is through abstract cues like
verbal commands or rough sketches. Such human guidance may lack details or be
noisy. Nonetheless, we expect robots to navigate as intended. For robots to
interpret and execute these abstract instructions in line with human
expectations, they must share a common understanding of basic navigation
concepts with humans. To this end, we introduce CANVAS, a novel framework that
combines visual and linguistic instructions for commonsense-aware navigation.
Its success is driven by imitation learning, enabling the robot to learn from
human navigation behavior. We present COMMAND, a comprehensive dataset with
human-annotated navigation results, spanning over 48 hours and 219 km, designed
to train commonsense-aware navigation systems in simulated environments. Our
experiments show that CANVAS outperforms the strong rule-based system ROS
NavStack across all environments, demonstrating superior performance with noisy
instructions. Notably, in the orchard environment, where ROS NavStack records a
0% total success rate, CANVAS achieves a total success rate of 67%. CANVAS also
closely aligns with human demonstrations and commonsense constraints, even in
unseen environments. Furthermore, real-world deployment of CANVAS showcases
impressive Sim2Real transfer with a total success rate of 69%, highlighting the
potential of learning from human demonstrations in simulated environments for
real-world applications.Summary
AI-Generated Summary