6D-Posenschätzung neuartiger Objekte mit einer einzigen Referenzansicht
Novel Object 6D Pose Estimation with a Single Reference View
March 7, 2025
Autoren: Jian Liu, Wei Sun, Kai Zeng, Jin Zheng, Hui Yang, Lin Wang, Hossein Rahmani, Ajmal Mian
cs.AI
Zusammenfassung
Bestehende Methoden zur 6D-Posenschätzung neuartiger Objekte basieren typischerweise auf CAD-Modellen oder dichten Referenzansichten, die beide schwer zu beschaffen sind. Die Verwendung nur einer einzigen Referenzansicht ist skalierbarer, stellt jedoch aufgrund großer Pose-Diskrepanzen und begrenzter geometrischer und räumlicher Informationen eine Herausforderung dar. Um diese Probleme zu lösen, schlagen wir eine Single-Reference-basierte 6D-Posenschätzung für neuartige Objekte (SinRef-6D) vor. Unser zentraler Ansatz besteht darin, eine punktweise Ausrichtung im Kamerakoordinatensystem iterativ auf der Grundlage von Zustandsraummodellen (State Space Models, SSMs) zu etablieren. Insbesondere kann die iterative punktweise Ausrichtung im Kameraraum große Pose-Diskrepanzen effektiv bewältigen, während unsere vorgeschlagenen RGB- und Points-SSMs langreichweitige Abhängigkeiten und räumliche Informationen aus einer einzigen Ansicht erfassen können, was lineare Komplexität und überlegene räumliche Modellierungsfähigkeit bietet. Einmal auf synthetischen Daten vortrainiert, kann SinRef-6D die 6D-Pose eines neuartigen Objekts unter Verwendung nur einer einzigen Referenzansicht schätzen, ohne dass ein erneutes Training oder ein CAD-Modell erforderlich ist. Umfangreiche Experimente auf sechs beliebten Datensätzen und realen Roboterszenen zeigen, dass wir eine vergleichbare Leistung mit CAD-basierten und dichten Referenzansicht-basierten Methoden erzielen, obwohl wir in der anspruchsvolleren Single-Reference-Einstellung arbeiten. Der Code wird unter https://github.com/CNJianLiu/SinRef-6D veröffentlicht.
English
Existing novel object 6D pose estimation methods typically rely on CAD models
or dense reference views, which are both difficult to acquire. Using only a
single reference view is more scalable, but challenging due to large pose
discrepancies and limited geometric and spatial information. To address these
issues, we propose a Single-Reference-based novel object 6D (SinRef-6D) pose
estimation method. Our key idea is to iteratively establish point-wise
alignment in the camera coordinate system based on state space models (SSMs).
Specifically, iterative camera-space point-wise alignment can effectively
handle large pose discrepancies, while our proposed RGB and Points SSMs can
capture long-range dependencies and spatial information from a single view,
offering linear complexity and superior spatial modeling capability. Once
pre-trained on synthetic data, SinRef-6D can estimate the 6D pose of a novel
object using only a single reference view, without requiring retraining or a
CAD model. Extensive experiments on six popular datasets and real-world robotic
scenes demonstrate that we achieve on-par performance with CAD-based and dense
reference view-based methods, despite operating in the more challenging single
reference setting. Code will be released at
https://github.com/CNJianLiu/SinRef-6D.Summary
AI-Generated Summary