Segmentazione interattiva di immagini mediche: un dataset di riferimento e basi di confronto
Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline
November 19, 2024
Autori: Junlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, JingWen Li, Yanzhou Su, Min Zhu, Junjun He
cs.AI
Abstract
La segmentazione interattiva delle immagini mediche (IMIS) è stata a lungo limitata dalla limitata disponibilità di set di dati ampi, diversificati e densamente annotati, che ostacola la generalizzazione dei modelli e la valutazione coerente tra modelli diversi. In questo articolo, presentiamo il dataset di benchmark IMed-361M, un significativo avanzamento nella ricerca generale di IMIS. Inizialmente, raccogliamo e standardizziamo oltre 6,4 milioni di immagini mediche e le relative maschere di verità dal terreno da diverse fonti di dati. Successivamente, sfruttando le forti capacità di riconoscimento degli oggetti di un modello fondamentale di visione, generiamo automaticamente maschere interattive dense per ciascuna immagine e ne garantiamo la qualità attraverso un rigoroso controllo qualità e gestione della granularità. A differenza dei dataset precedenti, limitati da specifiche modalità o annotazioni sparse, IMed-361M copre 14 modalità e 204 obiettivi di segmentazione, per un totale di 361 milioni di maschere, con una media di 56 maschere per immagine. Infine, sviluppiamo una rete di base IMIS su questo dataset che supporta la generazione di maschere di alta qualità attraverso input interattivi, inclusi clic, bounding box, prompt di testo e le loro combinazioni. Valutiamo le sue prestazioni su compiti di segmentazione delle immagini mediche da molteplici prospettive, dimostrando un'accuratezza e scalabilità superiori rispetto ai modelli di segmentazione interattiva esistenti. Per agevolare la ricerca sui modelli fondamentali nella visione artificiale medica, rilasciamo IMed-361M e il modello su https://github.com/uni-medical/IMIS-Bench.
English
Interactive Medical Image Segmentation (IMIS) has long been constrained by
the limited availability of large-scale, diverse, and densely annotated
datasets, which hinders model generalization and consistent evaluation across
different models. In this paper, we introduce the IMed-361M benchmark dataset,
a significant advancement in general IMIS research. First, we collect and
standardize over 6.4 million medical images and their corresponding ground
truth masks from multiple data sources. Then, leveraging the strong object
recognition capabilities of a vision foundational model, we automatically
generated dense interactive masks for each image and ensured their quality
through rigorous quality control and granularity management. Unlike previous
datasets, which are limited by specific modalities or sparse annotations,
IMed-361M spans 14 modalities and 204 segmentation targets, totaling 361
million masks-an average of 56 masks per image. Finally, we developed an IMIS
baseline network on this dataset that supports high-quality mask generation
through interactive inputs, including clicks, bounding boxes, text prompts, and
their combinations. We evaluate its performance on medical image segmentation
tasks from multiple perspectives, demonstrating superior accuracy and
scalability compared to existing interactive segmentation models. To facilitate
research on foundational models in medical computer vision, we release the
IMed-361M and model at https://github.com/uni-medical/IMIS-Bench.Summary
AI-Generated Summary