ReferAlles: Naar het segmenteren van alles waar we over kunnen spreken in video's
ReferEverything: Towards Segmenting Everything We Can Speak of in Videos
October 30, 2024
Auteurs: Anurag Bagchi, Zhipeng Bao, Yu-Xiong Wang, Pavel Tokmakov, Martial Hebert
cs.AI
Samenvatting
We presenteren REM, een framework voor het segmenteren van een breed scala aan concepten in video die kunnen worden beschreven met behulp van natuurlijke taal. Onze methode maakt gebruik van visueel-taalrepresentaties die zijn geleerd door videodiffusiemodellen op datasets op internetschaal. Een belangrijk inzicht van onze aanpak is het behouden van zoveel mogelijk van de oorspronkelijke representatie van het generatieve model, terwijl het wordt verfijnd op smal-domein Referral Object Segmentation-datasets. Als gevolg hiervan kan ons framework nauwkeurig zeldzame en ongeziene objecten segmenteren en volgen, ondanks dat het is getraind op objectmaskers uit een beperkte reeks categorieën. Bovendien kan het generaliseren naar niet-object dynamische concepten, zoals golven die breken in de oceaan, zoals gedemonstreerd in onze nieuw geïntroduceerde benchmark voor Referral Video Process Segmentation (Ref-VPS). Onze experimenten tonen aan dat REM vergelijkbaar presteert met state-of-the-art benaderingen op in-domeindatasets, zoals Ref-DAVIS, terwijl het ze overtreft met wel tot twaalf punten wat betreft regio-overeenkomst op out-of-domain data, waarbij het profiteert van de kracht van pre-training op internetschaal.
English
We present REM, a framework for segmenting a wide range of concepts in video
that can be described through natural language. Our method capitalizes on
visual-language representations learned by video diffusion models on
Internet-scale datasets. A key insight of our approach is preserving as much of
the generative model's original representation as possible, while fine-tuning
it on narrow-domain Referral Object Segmentation datasets. As a result, our
framework can accurately segment and track rare and unseen objects, despite
being trained on object masks from a limited set of categories. Additionally,
it can generalize to non-object dynamic concepts, such as waves crashing in the
ocean, as demonstrated in our newly introduced benchmark for Referral Video
Process Segmentation (Ref-VPS). Our experiments show that REM performs on par
with state-of-the-art approaches on in-domain datasets, like Ref-DAVIS, while
outperforming them by up to twelve points in terms of region similarity on
out-of-domain data, leveraging the power of Internet-scale pre-training.Summary
AI-Generated Summary