ChatPaper.aiChatPaper

OmniManip: 객체 중심 상호작용 원시체를 공간 제약 조건으로 통해 일반적인 로봇 조작으로의 발전

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

January 7, 2025
저자: Mingjie Pan, Jiyao Zhang, Tianshu Wu, Yinghao Zhao, Wenlong Gao, Hao Dong
cs.AI

초록

비구조화된 환경에서 조작이 가능한 일반 로봇 시스템을 개발하는 것은 중요한 도전입니다. Vision-Language Models(VLM)은 고수준의 상식적 추론에서 뛰어나지만, 정밀한 조작 작업에 필요한 섬세한 3D 공간 이해력이 부족합니다. VLM을 로봇 데이터셋에 맞게 세밀하게 조정하여 Vision-Language-Action Models(VLA)를 만드는 것은 잠재적인 해결책이지만, 데이터 수집 비용과 일반화 문제로 인해 어려움을 겪고 있습니다. 이러한 도전에 대응하기 위해, 우리는 VLM의 고수준 추론과 조작에 필요한 저수준 정밀성 사이의 간극을 메우는 새로운 객체 중심 표현을 제안합니다. 우리의 주요 인사이트는 객체의 기능적 affordances에 의해 정의된 객체의 정규 공간이 점과 방향과 같은 상호 작용 원시를 설명하는 구조화되고 의미 있는 방법을 제공한다는 것입니다. 이러한 원시는 VLM의 상식적 추론을 실행 가능한 3D 공간 제약으로 번역하는 다리 역할을 합니다. 이 문맥에서, 우리는 고수준 계획을 위한 원시 재샘플링, 상호 작용 렌더링 및 VLM 확인을 통한 닫힌 이중 루프와 6D 포즈 추적을 통한 저수준 실행을 위한 열린 어휘의 로봇 조작 시스템을 소개합니다. 이 설계는 VLM 세밀 조정 없이도 견고하고 실시간 제어를 보장합니다. 광범위한 실험은 다양한 로봇 조작 작업에 걸쳐 강력한 제로샷 일반화를 보여주며, 이 방법이 대규모 시뮬레이션 데이터 생성을 자동화하는 데 잠재력을 갖고 있음을 강조합니다.
English
The development of general robotic systems capable of manipulating in unstructured environments is a significant challenge. While Vision-Language Models(VLM) excel in high-level commonsense reasoning, they lack the fine-grained 3D spatial understanding required for precise manipulation tasks. Fine-tuning VLM on robotic datasets to create Vision-Language-Action Models(VLA) is a potential solution, but it is hindered by high data collection costs and generalization issues. To address these challenges, we propose a novel object-centric representation that bridges the gap between VLM's high-level reasoning and the low-level precision required for manipulation. Our key insight is that an object's canonical space, defined by its functional affordances, provides a structured and semantically meaningful way to describe interaction primitives, such as points and directions. These primitives act as a bridge, translating VLM's commonsense reasoning into actionable 3D spatial constraints. In this context, we introduce a dual closed-loop, open-vocabulary robotic manipulation system: one loop for high-level planning through primitive resampling, interaction rendering and VLM checking, and another for low-level execution via 6D pose tracking. This design ensures robust, real-time control without requiring VLM fine-tuning. Extensive experiments demonstrate strong zero-shot generalization across diverse robotic manipulation tasks, highlighting the potential of this approach for automating large-scale simulation data generation.

Summary

AI-Generated Summary

PDF533January 13, 2025