OmniManip: 物体中心の相互作用プリミティブを空間制約として用いた汎用ロボット操作に向けて
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints
January 7, 2025
著者: Mingjie Pan, Jiyao Zhang, Tianshu Wu, Yinghao Zhao, Wenlong Gao, Hao Dong
cs.AI
要旨
非構造化環境で操作可能な一般的なロボットシステムの開発は重要な課題です。Vision-Language Models(VLM)は高レベルの常識的推論に優れていますが、精密な操作タスクに必要な細かい3D空間理解が欠けています。ロボットデータセットでVLMを微調整してVision-Language-Action Models(VLA)を作成することは潜在的な解決策ですが、高いデータ収集コストと一般化の問題に妨げられています。これらの課題に対処するために、VLMの高レベル推論と操作に必要な低レベルの精度との間のギャップを埋める新しいオブジェクト中心の表現を提案します。私たちの鍵となる洞察は、オブジェクトの機能的な許容範囲によって定義されるオブジェクトの標準空間が、ポイントや方向などの相互作用の原始的な記述に対して構造化された意味のある方法を提供するということです。これらの原始体は、VLMの常識的推論を実行可能な3D空間の制約に変換する橋として機能します。この文脈で、高レベルの計画を行うためのプリミティブ再サンプリング、相互作用のレンダリング、およびVLMのチェックを通じた1つのループと、6Dポーズトラッキングを介した低レベルの実行を行うもう1つのループを導入します。この設計により、VLMの微調整を必要とせずに、堅牢でリアルタイムな制御が実現されます。包括的な実験により、多様なロボット操作タスク全般にわたる強力なゼロショット一般化が実証され、このアプローチが大規模なシミュレーションデータ生成の自動化の可能性を示しています。
English
The development of general robotic systems capable of manipulating in
unstructured environments is a significant challenge. While Vision-Language
Models(VLM) excel in high-level commonsense reasoning, they lack the
fine-grained 3D spatial understanding required for precise manipulation tasks.
Fine-tuning VLM on robotic datasets to create Vision-Language-Action
Models(VLA) is a potential solution, but it is hindered by high data collection
costs and generalization issues. To address these challenges, we propose a
novel object-centric representation that bridges the gap between VLM's
high-level reasoning and the low-level precision required for manipulation. Our
key insight is that an object's canonical space, defined by its functional
affordances, provides a structured and semantically meaningful way to describe
interaction primitives, such as points and directions. These primitives act as
a bridge, translating VLM's commonsense reasoning into actionable 3D spatial
constraints. In this context, we introduce a dual closed-loop, open-vocabulary
robotic manipulation system: one loop for high-level planning through primitive
resampling, interaction rendering and VLM checking, and another for low-level
execution via 6D pose tracking. This design ensures robust, real-time control
without requiring VLM fine-tuning. Extensive experiments demonstrate strong
zero-shot generalization across diverse robotic manipulation tasks,
highlighting the potential of this approach for automating large-scale
simulation data generation.Summary
AI-Generated Summary