Predizione del Peso degli Archi per la Stima della Posizione Agnostica alla Categoria

Edge Weight Prediction For Category-Agnostic Pose Estimation

November 25, 2024
Autori: Or Hirschorn, Shai Avidan
cs.AI

Abstract

La stima della posa agnostica alla categoria (CAPE) localizza i punti chiave attraverso diverse categorie di oggetti con un singolo modello, utilizzando una o poche immagini di supporto annotate. Lavori recenti hanno dimostrato che l'utilizzo di un grafo di posa (cioè trattare i punti chiave come nodi in un grafo anziché punti isolati) aiuta a gestire le occlusioni e a rompere la simmetria. Tuttavia, questi metodi assumono un grafo di posa statico con archi di peso uguale, portando a risultati subottimali. Introduciamo EdgeCape, un nuovo framework che supera queste limitazioni prevedendo i pesi degli archi del grafo che ottimizzano la localizzazione. Per sfruttare ulteriormente i vincoli strutturali, proponiamo di integrare il Bias Strutturale Markoviano, che modula l'interazione di autoattenzione tra i nodi in base al numero di salti tra di essi. Dimostriamo che ciò migliora la capacità del modello di catturare le dipendenze spaziali globali. Valutato sul benchmark MP-100, che include 100 categorie e oltre 20.000 immagini, EdgeCape raggiunge risultati all'avanguardia nell'impostazione 1-shot e si posiziona al primo posto tra i metodi di dimensioni simili nell'impostazione 5-shot, migliorando significativamente l'accuratezza della localizzazione dei punti chiave. Il nostro codice è disponibile pubblicamente.
English
Category-Agnostic Pose Estimation (CAPE) localizes keypoints across diverse object categories with a single model, using one or a few annotated support images. Recent works have shown that using a pose graph (i.e., treating keypoints as nodes in a graph rather than isolated points) helps handle occlusions and break symmetry. However, these methods assume a static pose graph with equal-weight edges, leading to suboptimal results. We introduce EdgeCape, a novel framework that overcomes these limitations by predicting the graph's edge weights which optimizes localization. To further leverage structural priors, we propose integrating Markovian Structural Bias, which modulates the self-attention interaction between nodes based on the number of hops between them. We show that this improves the model's ability to capture global spatial dependencies. Evaluated on the MP-100 benchmark, which includes 100 categories and over 20K images, EdgeCape achieves state-of-the-art results in the 1-shot setting and leads among similar-sized methods in the 5-shot setting, significantly improving keypoint localization accuracy. Our code is publicly available.

Summary

AI-Generated Summary

PDF42November 26, 2024