ZERSCHMETTERN: Segmentiere Mich In ZeitEinheiten
SMITE: Segment Me In TimE
October 24, 2024
Autoren: Amirhossein Alimohammadi, Sauradip Nag, Saeid Asgari Taghanaki, Andrea Tagliasacchi, Ghassan Hamarneh, Ali Mahdavi Amiri
cs.AI
Zusammenfassung
Das Segmentieren eines Objekts in einem Video birgt signifikante Herausforderungen. Jedes Pixel muss genau gekennzeichnet werden, und diese Kennzeichnungen müssen über die Frames hinweg konsistent bleiben. Die Schwierigkeit steigt, wenn die Segmentierung mit beliebiger Granularität erfolgt, was bedeutet, dass die Anzahl der Segmente beliebig variieren kann und Masken basierend nur auf einem oder wenigen Beispielfotos definiert sind. In diesem Paper behandeln wir dieses Problem, indem wir ein vortrainiertes Text-zu-Bild-Diffusionsmodell verwenden, das um einen zusätzlichen Tracking-Mechanismus ergänzt wird. Wir zeigen, dass unser Ansatz verschiedene Segmentierungsszenarien effektiv bewältigen kann und im Vergleich zu modernsten Alternativen überlegen ist.
English
Segmenting an object in a video presents significant challenges. Each pixel
must be accurately labelled, and these labels must remain consistent across
frames. The difficulty increases when the segmentation is with arbitrary
granularity, meaning the number of segments can vary arbitrarily, and masks are
defined based on only one or a few sample images. In this paper, we address
this issue by employing a pre-trained text to image diffusion model
supplemented with an additional tracking mechanism. We demonstrate that our
approach can effectively manage various segmentation scenarios and outperforms
state-of-the-art alternatives.Summary
AI-Generated Summary