OmniManip: Rumo à Manipulação Robótica Geral através de Primitivos de Interação Centrados em Objetos como Restrições Espaciais
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints
January 7, 2025
Autores: Mingjie Pan, Jiyao Zhang, Tianshu Wu, Yinghao Zhao, Wenlong Gao, Hao Dong
cs.AI
Resumo
O desenvolvimento de sistemas robóticos gerais capazes de manipular em ambientes não estruturados é um desafio significativo. Enquanto Modelos de Visão-Linguagem (VLM) se destacam em raciocínio de senso comum em alto nível, eles carecem do entendimento espacial 3D detalhado necessário para tarefas de manipulação precisa. O ajuste fino do VLM em conjuntos de dados robóticos para criar Modelos de Visão-Linguagem-Ação (VLA) é uma solução potencial, mas é prejudicado pelos altos custos de coleta de dados e problemas de generalização. Para enfrentar esses desafios, propomos uma representação inovadora centrada em objetos que preenche a lacuna entre o raciocínio em alto nível do VLM e a precisão em baixo nível necessária para a manipulação. Nosso insight chave é que o espaço canônico de um objeto, definido por suas affordances funcionais, fornece uma maneira estruturada e semanticamente significativa de descrever primitivas de interação, como pontos e direções. Essas primitivas atuam como uma ponte, traduzindo o raciocínio de senso comum do VLM em restrições espaciais 3D acionáveis. Neste contexto, introduzimos um sistema de manipulação robótica de vocabulário aberto e duplo loop fechado: um loop para planejamento em alto nível através de reamostragem primitiva, renderização de interação e verificação do VLM, e outro para execução em baixo nível via rastreamento de pose 6D. Este design garante controle robusto e em tempo real sem exigir ajuste fino do VLM. Experimentos extensos demonstram forte generalização de zero-shot em diversas tarefas de manipulação robótica, destacando o potencial desta abordagem para automatizar a geração de dados de simulação em larga escala.
English
The development of general robotic systems capable of manipulating in
unstructured environments is a significant challenge. While Vision-Language
Models(VLM) excel in high-level commonsense reasoning, they lack the
fine-grained 3D spatial understanding required for precise manipulation tasks.
Fine-tuning VLM on robotic datasets to create Vision-Language-Action
Models(VLA) is a potential solution, but it is hindered by high data collection
costs and generalization issues. To address these challenges, we propose a
novel object-centric representation that bridges the gap between VLM's
high-level reasoning and the low-level precision required for manipulation. Our
key insight is that an object's canonical space, defined by its functional
affordances, provides a structured and semantically meaningful way to describe
interaction primitives, such as points and directions. These primitives act as
a bridge, translating VLM's commonsense reasoning into actionable 3D spatial
constraints. In this context, we introduce a dual closed-loop, open-vocabulary
robotic manipulation system: one loop for high-level planning through primitive
resampling, interaction rendering and VLM checking, and another for low-level
execution via 6D pose tracking. This design ensures robust, real-time control
without requiring VLM fine-tuning. Extensive experiments demonstrate strong
zero-shot generalization across diverse robotic manipulation tasks,
highlighting the potential of this approach for automating large-scale
simulation data generation.Summary
AI-Generated Summary