Segmentazione Panottica Non Supervisionata Centrata sulla Scena
Scene-Centric Unsupervised Panoptic Segmentation
April 2, 2025
Autori: Oliver Hahn, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht, Stefan Roth
cs.AI
Abstract
La segmentazione panottica non supervisionata mira a suddividere un'immagine in regioni semanticamente significative e istanze di oggetti distinti senza addestramento su dati annotati manualmente. A differenza dei lavori precedenti sulla comprensione panottica non supervisionata delle scene, eliminiamo la necessità di dati di addestramento centrati sugli oggetti, consentendo la comprensione non supervisionata di scene complesse. A tal fine, presentiamo il primo metodo panottico non supervisionato che si addestra direttamente su immagini centrate sulla scena. In particolare, proponiamo un approccio per ottenere etichette pseudo panottiche ad alta risoluzione su dati complessi centrati sulla scena, combinando rappresentazioni visive, profondità e segnali di movimento. Utilizzando sia l'addestramento con etichette pseudo che una strategia di auto-addestramento panottico, otteniamo un approccio innovativo che predice accuratamente la segmentazione panottica di scene complesse senza richiedere alcuna annotazione umana. Il nostro approccio migliora significativamente la qualità panottica, ad esempio superando lo stato dell'arte recente nella segmentazione panottica non supervisionata su Cityscapes di 9,4 punti percentuali in PQ.
English
Unsupervised panoptic segmentation aims to partition an image into
semantically meaningful regions and distinct object instances without training
on manually annotated data. In contrast to prior work on unsupervised panoptic
scene understanding, we eliminate the need for object-centric training data,
enabling the unsupervised understanding of complex scenes. To that end, we
present the first unsupervised panoptic method that directly trains on
scene-centric imagery. In particular, we propose an approach to obtain
high-resolution panoptic pseudo labels on complex scene-centric data, combining
visual representations, depth, and motion cues. Utilizing both pseudo-label
training and a panoptic self-training strategy yields a novel approach that
accurately predicts panoptic segmentation of complex scenes without requiring
any human annotations. Our approach significantly improves panoptic quality,
e.g., surpassing the recent state of the art in unsupervised panoptic
segmentation on Cityscapes by 9.4% points in PQ.Summary
AI-Generated Summary