Segmentazione di Qualsiasi Movimento nei Video
Segment Any Motion in Videos
March 28, 2025
Autori: Nan Huang, Wenzhao Zheng, Chenfeng Xu, Kurt Keutzer, Shanghang Zhang, Angjoo Kanazawa, Qianqian Wang
cs.AI
Abstract
La segmentazione di oggetti in movimento è un compito cruciale per ottenere una comprensione avanzata delle scene visive e ha numerose applicazioni a valle. Gli esseri umani possono segmentare senza sforzo gli oggetti in movimento nei video. Il lavoro precedente si è basato principalmente sul flusso ottico per fornire indicazioni di movimento; tuttavia, questo approccio spesso porta a previsioni imperfette a causa di sfide come il movimento parziale, le deformazioni complesse, lo sfuocamento da movimento e le distrazioni dello sfondo. Proponiamo un nuovo approccio per la segmentazione di oggetti in movimento che combina indicazioni di movimento a lungo raggio basate su traiettorie con caratteristiche semantiche basate su DINO e sfrutta SAM2 per la densificazione delle maschere a livello di pixel attraverso una strategia di prompt iterativi. Il nostro modello utilizza l'attenzione spaziotemporale alle traiettorie e l'incorporamento decuplicato di movimento-semantica per dare priorità al movimento integrando il supporto semantico. Test estesi su diversi dataset dimostrano prestazioni all'avanguardia, eccellendo in scenari complessi e nella segmentazione fine di più oggetti. Il nostro codice è disponibile all'indirizzo https://motion-seg.github.io/.
English
Moving object segmentation is a crucial task for achieving a high-level
understanding of visual scenes and has numerous downstream applications. Humans
can effortlessly segment moving objects in videos. Previous work has largely
relied on optical flow to provide motion cues; however, this approach often
results in imperfect predictions due to challenges such as partial motion,
complex deformations, motion blur and background distractions. We propose a
novel approach for moving object segmentation that combines long-range
trajectory motion cues with DINO-based semantic features and leverages SAM2 for
pixel-level mask densification through an iterative prompting strategy. Our
model employs Spatio-Temporal Trajectory Attention and Motion-Semantic
Decoupled Embedding to prioritize motion while integrating semantic support.
Extensive testing on diverse datasets demonstrates state-of-the-art
performance, excelling in challenging scenarios and fine-grained segmentation
of multiple objects. Our code is available at https://motion-seg.github.io/.Summary
AI-Generated Summary