PoseLess: Tiefenfreie Vision-zu-Gelenk-Steuerung durch direkte Bildabbildung mit VLM

Zusammenfassung

Dieses Papier stellt PoseLess vor, ein neuartiges Framework zur Steuerung von Roboterhänden, das die Notwendigkeit expliziter Pose-Schätzung eliminiert, indem es 2D-Bilder direkt auf Gelenkwinkel abbildet, indem projizierte Repräsentationen verwendet werden. Unser Ansatz nutzt synthetische Trainingsdaten, die durch randomisierte Gelenkkonfigurationen generiert werden, was eine Null-Shot-Generalisierung auf reale Szenarien und einen Transfer über Morphologien hinweg von Roboter- zu menschlichen Händen ermöglicht. Durch die Projektion visueller Eingaben und den Einsatz eines transformer-basierten Decoders erreicht PoseLess eine robuste, latenzarme Steuerung und adressiert dabei Herausforderungen wie Tiefenambiguität und Datenknappheit. Experimentelle Ergebnisse zeigen eine wettbewerbsfähige Leistung bei der Genauigkeit der Gelenkwinkelvorhersage, ohne auf menschlich annotierte Datensätze angewiesen zu sein.

English

This paper introduces PoseLess, a novel framework for robot hand control that eliminates the need for explicit pose estimation by directly mapping 2D images to joint angles using projected representations. Our approach leverages synthetic training data generated through randomized joint configurations, enabling zero-shot generalization to real-world scenarios and cross-morphology transfer from robotic to human hands. By projecting visual inputs and employing a transformer-based decoder, PoseLess achieves robust, low-latency control while addressing challenges such as depth ambiguity and data scarcity. Experimental results demonstrate competitive performance in joint angle prediction accuracy without relying on any human-labelled dataset.

PoseLess: Tiefenfreie Vision-zu-Gelenk-Steuerung durch direkte Bildabbildung mit VLM

PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM

Zusammenfassung

Summary

Support

Support