SoFar: 언어 기반 방향성으로 공간 추론과 객체 조작 간의 간극을 메우다
SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation
February 18, 2025
저자: Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi
cs.AI
초록
공간 지능은 구현된 AI의 핵심 구성 요소로, 로봇이 주변 환경을 이해하고 상호작용할 수 있도록 촉진합니다. 최근의 발전으로 시각 언어 모델(VLM)이 물체의 위치와 위치 관계를 인지하는 능력이 향상되었지만, 여전히 물체의 방향을 정확히 이해하는 데는 한계가 있습니다. 이는 세밀한 조작 작업에 있어서 중요한 요구 사항입니다. 이러한 한계를 해결하기 위해서는 기하학적 추론뿐만 아니라 방향을 표현할 수 있는 직관적이고 표현력 있는 방법이 필요합니다. 이러한 맥락에서, 우리는 자연어가 표준 좌표계보다 더 유연한 표현 공간을 제공하며, 특히 명령 수행 로봇 시스템에 적합하다고 제안합니다. 본 논문에서는 '시맨틱 방향(semantic orientation)'이라는 개념을 소개합니다. 이는 물체의 방향을 자연어를 사용하여 기준 좌표계 없이 정의합니다(예: USB의 '플러그인' 방향이나 칼의 '손잡이' 방향). 이를 지원하기 위해, 우리는 기하학적 이해와 기능적 의미를 연결하는 시맨틱 방향으로 주석이 달린 대규모 3D 모델 데이터셋인 OrienText300K를 구축했습니다. 시맨틱 방향을 VLM 시스템에 통합함으로써, 로봇이 위치와 방향 제약을 모두 고려한 조작 동작을 생성할 수 있게 되었습니다. 시뮬레이션과 실제 환경에서의 광범위한 실험을 통해, 우리의 접근 방식이 로봇 조작 능력을 크게 향상시킴을 입증했습니다(예: Open6DOR에서 48.7% 정확도, SIMPLER에서 74.9% 정확도).
English
Spatial intelligence is a critical component of embodied AI, promoting robots
to understand and interact with their environments. While recent advances have
enhanced the ability of VLMs to perceive object locations and positional
relationships, they still lack the capability to precisely understand object
orientations-a key requirement for tasks involving fine-grained manipulations.
Addressing this limitation not only requires geometric reasoning but also an
expressive and intuitive way to represent orientation. In this context, we
propose that natural language offers a more flexible representation space than
canonical frames, making it particularly suitable for instruction-following
robotic systems. In this paper, we introduce the concept of semantic
orientation, which defines object orientations using natural language in a
reference-frame-free manner (e.g., the ''plug-in'' direction of a USB or the
''handle'' direction of a knife). To support this, we construct OrienText300K,
a large-scale dataset of 3D models annotated with semantic orientations that
link geometric understanding to functional semantics. By integrating semantic
orientation into a VLM system, we enable robots to generate manipulation
actions with both positional and orientational constraints. Extensive
experiments in simulation and real world demonstrate that our approach
significantly enhances robotic manipulation capabilities, e.g., 48.7% accuracy
on Open6DOR and 74.9% accuracy on SIMPLER.Summary
AI-Generated Summary