FRAPPE : Segmentez-moi dans le temps

SMITE: Segment Me In TimE

October 24, 2024
Auteurs: Amirhossein Alimohammadi, Sauradip Nag, Saeid Asgari Taghanaki, Andrea Tagliasacchi, Ghassan Hamarneh, Ali Mahdavi Amiri
cs.AI

Résumé

Segmenter un objet dans une vidéo présente des défis significatifs. Chaque pixel doit être étiqueté avec précision, et ces étiquettes doivent rester cohérentes à travers les images. La difficulté augmente lorsque la segmentation est effectuée avec une granularité arbitraire, ce qui signifie que le nombre de segments peut varier de manière arbitraire, et les masques sont définis sur la base d'une seule ou de quelques images d'échantillon. Dans cet article, nous abordons ce problème en utilisant un modèle de diffusion texte vers image pré-entraîné complété par un mécanisme de suivi supplémentaire. Nous démontrons que notre approche peut gérer efficacement divers scénarios de segmentation et surpasser les alternatives de pointe.
English
Segmenting an object in a video presents significant challenges. Each pixel must be accurately labelled, and these labels must remain consistent across frames. The difficulty increases when the segmentation is with arbitrary granularity, meaning the number of segments can vary arbitrarily, and masks are defined based on only one or a few sample images. In this paper, we address this issue by employing a pre-trained text to image diffusion model supplemented with an additional tracking mechanism. We demonstrate that our approach can effectively manage various segmentation scenarios and outperforms state-of-the-art alternatives.

Summary

AI-Generated Summary

PDF155November 16, 2024