ChatPaper.aiChatPaper

LPOSS: Propagazione delle Etichette su Patch e Pixel per la Segmentazione Semantica a Vocabolario Aperto

LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation

March 25, 2025
Autori: Vladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias
cs.AI

Abstract

Proponiamo un metodo senza addestramento per la segmentazione semantica a vocabolario aperto utilizzando Modelli Visione-e-Linguaggio (VLMs). Il nostro approccio migliora le previsioni iniziali per ogni patch dei VLMs attraverso la propagazione di etichette, che ottimizza congiuntamente le previsioni incorporando le relazioni tra patch. Poiché i VLMs sono principalmente ottimizzati per l'allineamento cross-modale e non per la similarità intra-modale, utilizziamo un Modello Visione (VM) che si è dimostrato in grado di catturare meglio queste relazioni. Affrontiamo le limitazioni di risoluzione intrinseche agli encoder basati su patch applicando la propagazione di etichette a livello di pixel come fase di raffinamento, migliorando significativamente l'accuratezza della segmentazione vicino ai confini delle classi. Il nostro metodo, chiamato LPOSS+, esegue l'inferenza sull'intera immagine, evitando l'elaborazione basata su finestre e catturando così le interazioni contestuali sull'intera immagine. LPOSS+ raggiunge prestazioni all'avanguardia tra i metodi senza addestramento, su un insieme diversificato di dataset. Codice: https://github.com/vladan-stojnic/LPOSS
English
We propose a training-free method for open-vocabulary semantic segmentation using Vision-and-Language Models (VLMs). Our approach enhances the initial per-patch predictions of VLMs through label propagation, which jointly optimizes predictions by incorporating patch-to-patch relationships. Since VLMs are primarily optimized for cross-modal alignment and not for intra-modal similarity, we use a Vision Model (VM) that is observed to better capture these relationships. We address resolution limitations inherent to patch-based encoders by applying label propagation at the pixel level as a refinement step, significantly improving segmentation accuracy near class boundaries. Our method, called LPOSS+, performs inference over the entire image, avoiding window-based processing and thereby capturing contextual interactions across the full image. LPOSS+ achieves state-of-the-art performance among training-free methods, across a diverse set of datasets. Code: https://github.com/vladan-stojnic/LPOSS

Summary

AI-Generated Summary

PDF12March 26, 2025