Naar Natuurlijke Beeldmatting in het Wild via Prioriteit van Echte Scenario's
Towards Natural Image Matting in the Wild via Real-Scenario Prior
October 9, 2024
Auteurs: Ruihao Xia, Yu Liang, Peng-Tao Jiang, Hao Zhang, Qianru Sun, Yang Tang, Bo Li, Pan Zhou
cs.AI
Samenvatting
Recente benaderingen proberen krachtige interactieve segmentatiemodellen, zoals SAM, aan te passen aan interactieve matting en de modellen af te stemmen op basis van synthetische matting-datasets. Modellen die zijn getraind op synthetische data falen echter in het generaliseren naar complexe en occlusiescènes. We pakken deze uitdaging aan door een nieuwe matting-dataset voor te stellen op basis van de COCO-dataset, namelijk COCO-Matting. Specifiek omvat de constructie van onze COCO-Matting accessoirefusie en masker-naar-matte, waarbij complexe afbeeldingen uit de echte wereld worden geselecteerd uit COCO en semantische segmentatiemaskers worden omgezet naar matting-labels. De gebouwde COCO-Matting bestaat uit een uitgebreide verzameling van 38.251 alfamatjes op instantieniveau van mensen in complexe natuurlijke scenario's. Bovendien halen bestaande op SAM gebaseerde matting-methoden tussenliggende kenmerken en maskers uit een bevroren SAM en trainen alleen een lichtgewicht matting-decoder met end-to-end matting-verliezen, die niet volledig profiteren van het potentieel van de vooraf getrainde SAM. Daarom stellen we SEMat voor, dat het netwerkarchitectuur en trainingsdoelstellingen herziet. Voor netwerkarchitectuur leert de voorgestelde feature-uitgelijnde transformer fijnkorrelige rand- en transparantiekenmerken te extraheren. De voorgestelde matte-uitgelijnde decoder heeft tot doel matting-specifieke objecten te segmenteren en grove maskers om te zetten in hoogwaardige mattes. Voor trainingsdoelstellingen beogen de voorgestelde regulering en trimap-verlies de prior van het vooraf getrainde model te behouden en duwen de matting-logits die zijn geëxtraheerd uit de maskerdecoder om trimap-gebaseerde semantische informatie te bevatten. Uitgebreide experimenten over zeven diverse datasets tonen de superieure prestaties van onze methode aan, waarbij de doeltreffendheid ervan in interactieve natuurlijke beeldmatting wordt aangetoond. We stellen onze code, modellen en dataset beschikbaar op https://github.com/XiaRho/SEMat.
English
Recent approaches attempt to adapt powerful interactive segmentation models,
such as SAM, to interactive matting and fine-tune the models based on synthetic
matting datasets. However, models trained on synthetic data fail to generalize
to complex and occlusion scenes. We address this challenge by proposing a new
matting dataset based on the COCO dataset, namely COCO-Matting. Specifically,
the construction of our COCO-Matting includes accessory fusion and
mask-to-matte, which selects real-world complex images from COCO and converts
semantic segmentation masks to matting labels. The built COCO-Matting comprises
an extensive collection of 38,251 human instance-level alpha mattes in complex
natural scenarios. Furthermore, existing SAM-based matting methods extract
intermediate features and masks from a frozen SAM and only train a lightweight
matting decoder by end-to-end matting losses, which do not fully exploit the
potential of the pre-trained SAM. Thus, we propose SEMat which revamps the
network architecture and training objectives. For network architecture, the
proposed feature-aligned transformer learns to extract fine-grained edge and
transparency features. The proposed matte-aligned decoder aims to segment
matting-specific objects and convert coarse masks into high-precision mattes.
For training objectives, the proposed regularization and trimap loss aim to
retain the prior from the pre-trained model and push the matting logits
extracted from the mask decoder to contain trimap-based semantic information.
Extensive experiments across seven diverse datasets demonstrate the superior
performance of our method, proving its efficacy in interactive natural image
matting. We open-source our code, models, and dataset at
https://github.com/XiaRho/SEMat.Summary
AI-Generated Summary