BOP Challenge 2024 sulla stima della posa 6D di oggetti basata su modello e senza modello
BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation
April 3, 2025
Autori: Van Nguyen Nguyen, Stephen Tyree, Andrew Guo, Mederic Fourmy, Anas Gouda, Taeyeop Lee, Sungphill Moon, Hyeontae Son, Lukas Ranftl, Jonathan Tremblay, Eric Brachmann, Bertram Drost, Vincent Lepetit, Carsten Rother, Stan Birchfield, Jiri Matas, Yann Labbe, Martin Sundermeyer, Tomas Hodan
cs.AI
Abstract
Presentiamo la metodologia di valutazione, i dataset e i risultati della BOP Challenge 2024, la sesta di una serie di competizioni pubbliche organizzate per catturare lo stato dell'arte nella stima della posa 6D degli oggetti e nelle attività correlate. Nel 2024, il nostro obiettivo è stato quello di far evolvere BOP da configurazioni di laboratorio a scenari reali. In primo luogo, abbiamo introdotto nuovi task model-free, in cui non sono disponibili modelli 3D degli oggetti e i metodi devono acquisire gli oggetti solo a partire da video di riferimento forniti. In secondo luogo, abbiamo definito un nuovo e più pratico task di rilevamento 6D degli oggetti, in cui le identità degli oggetti visibili in un'immagine di test non vengono fornite come input. In terzo luogo, abbiamo introdotto i nuovi dataset BOP-H3, registrati con sensori ad alta risoluzione e visori AR/VR, che riproducono fedelmente scenari reali. BOP-H3 include modelli 3D e video di acquisizione per supportare sia task model-based che model-free. I partecipanti hanno gareggiato su sette tracce di challenge, ciascuna definita da un task, una configurazione di acquisizione degli oggetti e un gruppo di dataset. È degno di nota che il miglior metodo del 2024 per la localizzazione 6D model-based di oggetti non visti (FreeZeV2.1) raggiunge un'accuratezza del 22% superiore su BOP-Classic-Core rispetto al miglior metodo del 2023 (GenFlow), e si posiziona solo al 4% di distanza dal miglior metodo del 2023 per oggetti visti (GPose2023), nonostante sia significativamente più lento (24,9 vs 2,7s per immagine). Un metodo più pratico del 2024 per questo task è Co-op, che impiega solo 0,8s per immagine ed è 25 volte più veloce e il 13% più accurato rispetto a GenFlow. I metodi mantengono un ranking simile nel rilevamento 6D rispetto alla localizzazione 6D, ma con tempi di esecuzione più elevati. Nel rilevamento 2D model-based di oggetti non visti, il miglior metodo del 2024 (MUSE) raggiunge un miglioramento relativo del 21% rispetto al miglior metodo del 2023 (CNOS). Tuttavia, l'accuratezza del rilevamento 2D per oggetti non visti rimane ancora notevolmente inferiore (-53%) rispetto all'accuratezza per oggetti visti (GDet2023). Il sistema di valutazione online rimane aperto ed è disponibile all'indirizzo http://bop.felk.cvut.cz/.
English
We present the evaluation methodology, datasets and results of the BOP
Challenge 2024, the sixth in a series of public competitions organized to
capture the state of the art in 6D object pose estimation and related tasks. In
2024, our goal was to transition BOP from lab-like setups to real-world
scenarios. First, we introduced new model-free tasks, where no 3D object models
are available and methods need to onboard objects just from provided reference
videos. Second, we defined a new, more practical 6D object detection task where
identities of objects visible in a test image are not provided as input. Third,
we introduced new BOP-H3 datasets recorded with high-resolution sensors and
AR/VR headsets, closely resembling real-world scenarios. BOP-H3 include 3D
models and onboarding videos to support both model-based and model-free tasks.
Participants competed on seven challenge tracks, each defined by a task, object
onboarding setup, and dataset group. Notably, the best 2024 method for
model-based 6D localization of unseen objects (FreeZeV2.1) achieves 22% higher
accuracy on BOP-Classic-Core than the best 2023 method (GenFlow), and is only
4% behind the best 2023 method for seen objects (GPose2023) although being
significantly slower (24.9 vs 2.7s per image). A more practical 2024 method for
this task is Co-op which takes only 0.8s per image and is 25X faster and 13%
more accurate than GenFlow. Methods have a similar ranking on 6D detection as
on 6D localization but higher run time. On model-based 2D detection of unseen
objects, the best 2024 method (MUSE) achieves 21% relative improvement compared
to the best 2023 method (CNOS). However, the 2D detection accuracy for unseen
objects is still noticealy (-53%) behind the accuracy for seen objects
(GDet2023). The online evaluation system stays open and is available at
http://bop.felk.cvut.cz/Summary
AI-Generated Summary