ReferAlles: Naar het segmenteren van alles waar we over kunnen spreken in video's

ReferEverything: Towards Segmenting Everything We Can Speak of in Videos

October 30, 2024
Auteurs: Anurag Bagchi, Zhipeng Bao, Yu-Xiong Wang, Pavel Tokmakov, Martial Hebert
cs.AI

Samenvatting

We presenteren REM, een framework voor het segmenteren van een breed scala aan concepten in video die kunnen worden beschreven met behulp van natuurlijke taal. Onze methode maakt gebruik van visueel-taalrepresentaties die zijn geleerd door videodiffusiemodellen op datasets op internetschaal. Een belangrijk inzicht van onze aanpak is het behouden van zoveel mogelijk van de oorspronkelijke representatie van het generatieve model, terwijl het wordt verfijnd op smal-domein Referral Object Segmentation-datasets. Als gevolg hiervan kan ons framework nauwkeurig zeldzame en ongeziene objecten segmenteren en volgen, ondanks dat het is getraind op objectmaskers uit een beperkte reeks categorieën. Bovendien kan het generaliseren naar niet-object dynamische concepten, zoals golven die breken in de oceaan, zoals gedemonstreerd in onze nieuw geïntroduceerde benchmark voor Referral Video Process Segmentation (Ref-VPS). Onze experimenten tonen aan dat REM vergelijkbaar presteert met state-of-the-art benaderingen op in-domeindatasets, zoals Ref-DAVIS, terwijl het ze overtreft met wel tot twaalf punten wat betreft regio-overeenkomst op out-of-domain data, waarbij het profiteert van de kracht van pre-training op internetschaal.
English
We present REM, a framework for segmenting a wide range of concepts in video that can be described through natural language. Our method capitalizes on visual-language representations learned by video diffusion models on Internet-scale datasets. A key insight of our approach is preserving as much of the generative model's original representation as possible, while fine-tuning it on narrow-domain Referral Object Segmentation datasets. As a result, our framework can accurately segment and track rare and unseen objects, despite being trained on object masks from a limited set of categories. Additionally, it can generalize to non-object dynamic concepts, such as waves crashing in the ocean, as demonstrated in our newly introduced benchmark for Referral Video Process Segmentation (Ref-VPS). Our experiments show that REM performs on par with state-of-the-art approaches on in-domain datasets, like Ref-DAVIS, while outperforming them by up to twelve points in terms of region similarity on out-of-domain data, leveraging the power of Internet-scale pre-training.

Summary

AI-Generated Summary

PDF173November 16, 2024