SMITE: Segmenteer Mij In Tijd
SMITE: Segment Me In TimE
October 24, 2024
Auteurs: Amirhossein Alimohammadi, Sauradip Nag, Saeid Asgari Taghanaki, Andrea Tagliasacchi, Ghassan Hamarneh, Ali Mahdavi Amiri
cs.AI
Samenvatting
Het segmenteren van een object in een video brengt aanzienlijke uitdagingen met zich mee. Elk pixel moet nauwkeurig gelabeld worden, en deze labels moeten consistent blijven over frames heen. De moeilijkheid neemt toe wanneer de segmentatie willekeurige granulariteit heeft, wat betekent dat het aantal segmenten willekeurig kan variëren, en maskers worden gedefinieerd op basis van slechts één of een paar voorbeeldafbeeldingen. In dit artikel pakken we dit probleem aan door gebruik te maken van een vooraf getraind tekst-naar-afbeelding diffusiemodel aangevuld met een aanvullend volgmechanisme. We tonen aan dat onze aanpak effectief verschillende segmentatiescenario's kan beheren en beter presteert dan state-of-the-art alternatieven.
English
Segmenting an object in a video presents significant challenges. Each pixel
must be accurately labelled, and these labels must remain consistent across
frames. The difficulty increases when the segmentation is with arbitrary
granularity, meaning the number of segments can vary arbitrarily, and masks are
defined based on only one or a few sample images. In this paper, we address
this issue by employing a pre-trained text to image diffusion model
supplemented with an additional tracking mechanism. We demonstrate that our
approach can effectively manage various segmentation scenarios and outperforms
state-of-the-art alternatives.Summary
AI-Generated Summary