Predizione del Peso degli Archi per la Stima della Posizione Agnostica alla Categoria
Edge Weight Prediction For Category-Agnostic Pose Estimation
November 25, 2024
Autori: Or Hirschorn, Shai Avidan
cs.AI
Abstract
La stima della posa agnostica alla categoria (CAPE) localizza i punti chiave attraverso diverse categorie di oggetti con un singolo modello, utilizzando una o poche immagini di supporto annotate. Lavori recenti hanno dimostrato che l'utilizzo di un grafo di posa (cioè trattare i punti chiave come nodi in un grafo anziché punti isolati) aiuta a gestire le occlusioni e a rompere la simmetria. Tuttavia, questi metodi assumono un grafo di posa statico con archi di peso uguale, portando a risultati subottimali. Introduciamo EdgeCape, un nuovo framework che supera queste limitazioni prevedendo i pesi degli archi del grafo che ottimizzano la localizzazione. Per sfruttare ulteriormente i vincoli strutturali, proponiamo di integrare il Bias Strutturale Markoviano, che modula l'interazione di autoattenzione tra i nodi in base al numero di salti tra di essi. Dimostriamo che ciò migliora la capacità del modello di catturare le dipendenze spaziali globali. Valutato sul benchmark MP-100, che include 100 categorie e oltre 20.000 immagini, EdgeCape raggiunge risultati all'avanguardia nell'impostazione 1-shot e si posiziona al primo posto tra i metodi di dimensioni simili nell'impostazione 5-shot, migliorando significativamente l'accuratezza della localizzazione dei punti chiave. Il nostro codice è disponibile pubblicamente.
English
Category-Agnostic Pose Estimation (CAPE) localizes keypoints across diverse
object categories with a single model, using one or a few annotated support
images. Recent works have shown that using a pose graph (i.e., treating
keypoints as nodes in a graph rather than isolated points) helps handle
occlusions and break symmetry. However, these methods assume a static pose
graph with equal-weight edges, leading to suboptimal results. We introduce
EdgeCape, a novel framework that overcomes these limitations by predicting the
graph's edge weights which optimizes localization. To further leverage
structural priors, we propose integrating Markovian Structural Bias, which
modulates the self-attention interaction between nodes based on the number of
hops between them. We show that this improves the model's ability to capture
global spatial dependencies. Evaluated on the MP-100 benchmark, which includes
100 categories and over 20K images, EdgeCape achieves state-of-the-art results
in the 1-shot setting and leads among similar-sized methods in the 5-shot
setting, significantly improving keypoint localization accuracy. Our code is
publicly available.Summary
AI-Generated Summary