Freiformbasierte sprachgesteuerte Roboterlogik und Greifvorgänge
Free-form language-based robotic reasoning and grasping
March 17, 2025
Autoren: Runyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi
cs.AI
Zusammenfassung
Das Ausführen von Roboter-Greifvorgängen aus einem ungeordneten Behälter basierend auf menschlichen Anweisungen ist eine anspruchsvolle Aufgabe, da sie sowohl das Verständnis der Nuancen freier Sprache als auch der räumlichen Beziehungen zwischen Objekten erfordert. Vision-Language-Modelle (VLMs), die auf Web-Scale-Daten trainiert wurden, wie GPT-4o, haben bemerkenswerte Fähigkeiten in der Verarbeitung von Text und Bildern gezeigt. Aber können sie tatsächlich für diese Aufgabe in einem Zero-Shot-Setting verwendet werden? Und was sind ihre Grenzen? In diesem Papier untersuchen wir diese Forschungsfragen anhand der Aufgabe des freien sprachbasierten Roboter-Greifens und schlagen eine neue Methode, FreeGrasp, vor, die das Weltwissen der vortrainierten VLMs nutzt, um menschliche Anweisungen und räumliche Anordnungen von Objekten zu interpretieren. Unsere Methode erkennt alle Objekte als Keypoints und verwendet diese Keypoints, um Markierungen auf Bildern zu annotieren, um die Zero-Shot-räumliche Argumentation von GPT-4o zu erleichtern. Dies ermöglicht es unserer Methode, zu bestimmen, ob ein angefragtes Objekt direkt greifbar ist oder ob andere Objekte zuerst gegriffen und entfernt werden müssen. Da kein bestehender Datensatz speziell für diese Aufgabe entwickelt wurde, führen wir einen synthetischen Datensatz, FreeGraspData, ein, indem wir den MetaGraspNetV2-Datensatz mit menschlich annotierten Anweisungen und Ground-Truth-Greifsequenzen erweitern. Wir führen umfangreiche Analysen mit FreeGraspData durch und validieren die Methode in der realen Welt mit einem Roboterarm, der mit einem Greifer ausgestattet ist, und zeigen dabei state-of-the-art Leistungen in der Greifargumentation und -ausführung. Projektwebsite: https://tev-fbk.github.io/FreeGrasp/.
English
Performing robotic grasping from a cluttered bin based on human instructions
is a challenging task, as it requires understanding both the nuances of
free-form language and the spatial relationships between objects.
Vision-Language Models (VLMs) trained on web-scale data, such as GPT-4o, have
demonstrated remarkable reasoning capabilities across both text and images. But
can they truly be used for this task in a zero-shot setting? And what are their
limitations? In this paper, we explore these research questions via the
free-form language-based robotic grasping task, and propose a novel method,
FreeGrasp, leveraging the pre-trained VLMs' world knowledge to reason about
human instructions and object spatial arrangements. Our method detects all
objects as keypoints and uses these keypoints to annotate marks on images,
aiming to facilitate GPT-4o's zero-shot spatial reasoning. This allows our
method to determine whether a requested object is directly graspable or if
other objects must be grasped and removed first. Since no existing dataset is
specifically designed for this task, we introduce a synthetic dataset
FreeGraspData by extending the MetaGraspNetV2 dataset with human-annotated
instructions and ground-truth grasping sequences. We conduct extensive analyses
with both FreeGraspData and real-world validation with a gripper-equipped
robotic arm, demonstrating state-of-the-art performance in grasp reasoning and
execution. Project website: https://tev-fbk.github.io/FreeGrasp/.Summary
AI-Generated Summary