Segmentazione di Qualsiasi Movimento nei Video

Abstract

La segmentazione di oggetti in movimento è un compito cruciale per ottenere una comprensione avanzata delle scene visive e ha numerose applicazioni a valle. Gli esseri umani possono segmentare senza sforzo gli oggetti in movimento nei video. Il lavoro precedente si è basato principalmente sul flusso ottico per fornire indicazioni di movimento; tuttavia, questo approccio spesso porta a previsioni imperfette a causa di sfide come il movimento parziale, le deformazioni complesse, lo sfuocamento da movimento e le distrazioni dello sfondo. Proponiamo un nuovo approccio per la segmentazione di oggetti in movimento che combina indicazioni di movimento a lungo raggio basate su traiettorie con caratteristiche semantiche basate su DINO e sfrutta SAM2 per la densificazione delle maschere a livello di pixel attraverso una strategia di prompt iterativi. Il nostro modello utilizza l'attenzione spaziotemporale alle traiettorie e l'incorporamento decuplicato di movimento-semantica per dare priorità al movimento integrando il supporto semantico. Test estesi su diversi dataset dimostrano prestazioni all'avanguardia, eccellendo in scenari complessi e nella segmentazione fine di più oggetti. Il nostro codice è disponibile all'indirizzo https://motion-seg.github.io/.

English

Moving object segmentation is a crucial task for achieving a high-level understanding of visual scenes and has numerous downstream applications. Humans can effortlessly segment moving objects in videos. Previous work has largely relied on optical flow to provide motion cues; however, this approach often results in imperfect predictions due to challenges such as partial motion, complex deformations, motion blur and background distractions. We propose a novel approach for moving object segmentation that combines long-range trajectory motion cues with DINO-based semantic features and leverages SAM2 for pixel-level mask densification through an iterative prompting strategy. Our model employs Spatio-Temporal Trajectory Attention and Motion-Semantic Decoupled Embedding to prioritize motion while integrating semantic support. Extensive testing on diverse datasets demonstrates state-of-the-art performance, excelling in challenging scenarios and fine-grained segmentation of multiple objects. Our code is available at https://motion-seg.github.io/.

Segmentazione di Qualsiasi Movimento nei Video

Segment Any Motion in Videos

Abstract

Summary

Support

Support