ChatPaper.aiChatPaper

PoseLess: Tiefenfreie Vision-zu-Gelenk-Steuerung durch direkte Bildabbildung mit VLM

PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM

March 10, 2025
Autoren: Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
cs.AI

Zusammenfassung

Dieses Papier stellt PoseLess vor, ein neuartiges Framework zur Steuerung von Roboterhänden, das die Notwendigkeit expliziter Pose-Schätzung eliminiert, indem es 2D-Bilder direkt auf Gelenkwinkel abbildet, indem projizierte Repräsentationen verwendet werden. Unser Ansatz nutzt synthetische Trainingsdaten, die durch randomisierte Gelenkkonfigurationen generiert werden, was eine Null-Shot-Generalisierung auf reale Szenarien und einen Transfer über Morphologien hinweg von Roboter- zu menschlichen Händen ermöglicht. Durch die Projektion visueller Eingaben und den Einsatz eines transformer-basierten Decoders erreicht PoseLess eine robuste, latenzarme Steuerung und adressiert dabei Herausforderungen wie Tiefenambiguität und Datenknappheit. Experimentelle Ergebnisse zeigen eine wettbewerbsfähige Leistung bei der Genauigkeit der Gelenkwinkelvorhersage, ohne auf menschlich annotierte Datensätze angewiesen zu sein.
English
This paper introduces PoseLess, a novel framework for robot hand control that eliminates the need for explicit pose estimation by directly mapping 2D images to joint angles using projected representations. Our approach leverages synthetic training data generated through randomized joint configurations, enabling zero-shot generalization to real-world scenarios and cross-morphology transfer from robotic to human hands. By projecting visual inputs and employing a transformer-based decoder, PoseLess achieves robust, low-latency control while addressing challenges such as depth ambiguity and data scarcity. Experimental results demonstrate competitive performance in joint angle prediction accuracy without relying on any human-labelled dataset.

Summary

AI-Generated Summary

PDF32March 15, 2025