SMITE: 시간 내에서 나를 분할하세요.
SMITE: Segment Me In TimE
October 24, 2024
저자: Amirhossein Alimohammadi, Sauradip Nag, Saeid Asgari Taghanaki, Andrea Tagliasacchi, Ghassan Hamarneh, Ali Mahdavi Amiri
cs.AI
초록
비디오에서 객체를 세분화하는 것은 중요한 도전을 제시합니다. 각 픽셀은 정확하게 레이블이 지정되어야 하며, 이러한 레이블은 프레임 간에 일관되어 유지되어야 합니다. 세분화가 임의의 세분화로 이루어질 때 어려움이 증가하는데, 이는 세그먼트의 수가 임의로 변할 수 있고, 마스크가 하나 또는 몇 개의 샘플 이미지를 기반으로 정의될 때입니다. 본 논문에서는 사전 훈련된 텍스트에서 이미지로 확산 모델을 사용하여 이 문제를 다룹니다. 추가 추적 메커니즘을 보완하여 접근 방식이 다양한 세분화 시나리오를 효과적으로 관리하고 최첨단 대안을 능가함을 입증합니다.
English
Segmenting an object in a video presents significant challenges. Each pixel
must be accurately labelled, and these labels must remain consistent across
frames. The difficulty increases when the segmentation is with arbitrary
granularity, meaning the number of segments can vary arbitrarily, and masks are
defined based on only one or a few sample images. In this paper, we address
this issue by employing a pre-trained text to image diffusion model
supplemented with an additional tracking mechanism. We demonstrate that our
approach can effectively manage various segmentation scenarios and outperforms
state-of-the-art alternatives.Summary
AI-Generated Summary