MedSAM2: Segmentazione di Oggetti in Immagini e Video Medici 3D
MedSAM2: Segment Anything in 3D Medical Images and Videos
April 4, 2025
Autori: Jun Ma, Zongxin Yang, Sumin Kim, Bihui Chen, Mohammed Baharoon, Adibvafa Fallahpour, Reza Asakereh, Hongwei Lyu, Bo Wang
cs.AI
Abstract
La segmentazione di immagini e video medici è un compito cruciale per la medicina di precisione, che ha visto notevoli progressi nello sviluppo di modelli specifici per compiti o modalità e modelli generalisti per immagini 2D. Tuttavia, ci sono stati studi limitati sulla creazione di modelli generici per immagini 3D e video con studi utente completi. Qui presentiamo MedSAM2, un modello di segmentazione foundation promptable per la segmentazione di immagini 3D e video. Il modello è stato sviluppato ottimizzando il Segment Anything Model 2 su un ampio dataset medico con oltre 455.000 coppie di immagini-maschere 3D e 76.000 frame, superando i modelli precedenti su una vasta gamma di organi, lesioni e modalità di imaging. Inoltre, implementiamo una pipeline human-in-the-loop per facilitare la creazione di dataset su larga scala, risultando, a nostra conoscenza, nello studio utente più esteso fino ad oggi, che include l'annotazione di 5.000 lesioni TC, 3.984 lesioni epatiche MRI e 251.550 frame di video ecocardiografici, dimostrando che MedSAM2 può ridurre i costi manuali di oltre l'85%. MedSAM2 è anche integrato in piattaforme ampiamente utilizzate con interfacce user-friendly per il deployment locale e su cloud, rendendolo uno strumento pratico per supportare una segmentazione efficiente, scalabile e di alta qualità sia in ambienti di ricerca che sanitari.
English
Medical image and video segmentation is a critical task for precision
medicine, which has witnessed considerable progress in developing task or
modality-specific and generalist models for 2D images. However, there have been
limited studies on building general-purpose models for 3D images and videos
with comprehensive user studies. Here, we present MedSAM2, a promptable
segmentation foundation model for 3D image and video segmentation. The model is
developed by fine-tuning the Segment Anything Model 2 on a large medical
dataset with over 455,000 3D image-mask pairs and 76,000 frames, outperforming
previous models across a wide range of organs, lesions, and imaging modalities.
Furthermore, we implement a human-in-the-loop pipeline to facilitate the
creation of large-scale datasets resulting in, to the best of our knowledge,
the most extensive user study to date, involving the annotation of 5,000 CT
lesions, 3,984 liver MRI lesions, and 251,550 echocardiogram video frames,
demonstrating that MedSAM2 can reduce manual costs by more than 85%. MedSAM2 is
also integrated into widely used platforms with user-friendly interfaces for
local and cloud deployment, making it a practical tool for supporting
efficient, scalable, and high-quality segmentation in both research and
healthcare environments.Summary
AI-Generated Summary