OmniManip: Rumo à Manipulação Robótica Geral através de Primitivos de Interação Centrados em Objetos como Restrições Espaciais

Resumo

O desenvolvimento de sistemas robóticos gerais capazes de manipular em ambientes não estruturados é um desafio significativo. Enquanto Modelos de Visão-Linguagem (VLM) se destacam em raciocínio de senso comum em alto nível, eles carecem do entendimento espacial 3D detalhado necessário para tarefas de manipulação precisa. O ajuste fino do VLM em conjuntos de dados robóticos para criar Modelos de Visão-Linguagem-Ação (VLA) é uma solução potencial, mas é prejudicado pelos altos custos de coleta de dados e problemas de generalização. Para enfrentar esses desafios, propomos uma representação inovadora centrada em objetos que preenche a lacuna entre o raciocínio em alto nível do VLM e a precisão em baixo nível necessária para a manipulação. Nosso insight chave é que o espaço canônico de um objeto, definido por suas affordances funcionais, fornece uma maneira estruturada e semanticamente significativa de descrever primitivas de interação, como pontos e direções. Essas primitivas atuam como uma ponte, traduzindo o raciocínio de senso comum do VLM em restrições espaciais 3D acionáveis. Neste contexto, introduzimos um sistema de manipulação robótica de vocabulário aberto e duplo loop fechado: um loop para planejamento em alto nível através de reamostragem primitiva, renderização de interação e verificação do VLM, e outro para execução em baixo nível via rastreamento de pose 6D. Este design garante controle robusto e em tempo real sem exigir ajuste fino do VLM. Experimentos extensos demonstram forte generalização de zero-shot em diversas tarefas de manipulação robótica, destacando o potencial desta abordagem para automatizar a geração de dados de simulação em larga escala.

English

The development of general robotic systems capable of manipulating in unstructured environments is a significant challenge. While Vision-Language Models(VLM) excel in high-level commonsense reasoning, they lack the fine-grained 3D spatial understanding required for precise manipulation tasks. Fine-tuning VLM on robotic datasets to create Vision-Language-Action Models(VLA) is a potential solution, but it is hindered by high data collection costs and generalization issues. To address these challenges, we propose a novel object-centric representation that bridges the gap between VLM's high-level reasoning and the low-level precision required for manipulation. Our key insight is that an object's canonical space, defined by its functional affordances, provides a structured and semantically meaningful way to describe interaction primitives, such as points and directions. These primitives act as a bridge, translating VLM's commonsense reasoning into actionable 3D spatial constraints. In this context, we introduce a dual closed-loop, open-vocabulary robotic manipulation system: one loop for high-level planning through primitive resampling, interaction rendering and VLM checking, and another for low-level execution via 6D pose tracking. This design ensures robust, real-time control without requiring VLM fine-tuning. Extensive experiments demonstrate strong zero-shot generalization across diverse robotic manipulation tasks, highlighting the potential of this approach for automating large-scale simulation data generation.

OmniManip: Rumo à Manipulação Robótica Geral através de Primitivos de Interação Centrados em Objetos como Restrições Espaciais

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Resumo

Summary

Support