PoseLess: Tiefenfreie Vision-zu-Gelenk-Steuerung durch direkte Bildabbildung mit VLM
PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM
March 10, 2025
Autoren: Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
cs.AI
Zusammenfassung
Dieses Papier stellt PoseLess vor, ein neuartiges Framework zur Steuerung von Roboterhänden, das die Notwendigkeit expliziter Pose-Schätzung eliminiert, indem es 2D-Bilder direkt auf Gelenkwinkel abbildet, indem projizierte Repräsentationen verwendet werden. Unser Ansatz nutzt synthetische Trainingsdaten, die durch randomisierte Gelenkkonfigurationen generiert werden, was eine Null-Shot-Generalisierung auf reale Szenarien und einen Transfer über Morphologien hinweg von Roboter- zu menschlichen Händen ermöglicht. Durch die Projektion visueller Eingaben und den Einsatz eines transformer-basierten Decoders erreicht PoseLess eine robuste, latenzarme Steuerung und adressiert dabei Herausforderungen wie Tiefenambiguität und Datenknappheit. Experimentelle Ergebnisse zeigen eine wettbewerbsfähige Leistung bei der Genauigkeit der Gelenkwinkelvorhersage, ohne auf menschlich annotierte Datensätze angewiesen zu sein.
English
This paper introduces PoseLess, a novel framework for robot hand control that
eliminates the need for explicit pose estimation by directly mapping 2D images
to joint angles using projected representations. Our approach leverages
synthetic training data generated through randomized joint configurations,
enabling zero-shot generalization to real-world scenarios and cross-morphology
transfer from robotic to human hands. By projecting visual inputs and employing
a transformer-based decoder, PoseLess achieves robust, low-latency control
while addressing challenges such as depth ambiguity and data scarcity.
Experimental results demonstrate competitive performance in joint angle
prediction accuracy without relying on any human-labelled dataset.Summary
AI-Generated Summary