UKBOB: Un Miliardo di Maschere Etichettate da Risonanza Magnetica per la Segmentazione Generalizzabile di Immagini Mediche 3D
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation
April 9, 2025
Autori: Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi
cs.AI
Abstract
Nell'ambito dell'imaging medico, la sfida principale è la raccolta di dati etichettati su larga scala a causa di preoccupazioni relative alla privacy, problematiche logistiche e costi elevati di etichettatura. In questo lavoro, presentiamo UK Biobank Organs and Bones (UKBOB), il più grande dataset etichettato di organi del corpo, comprendente 51.761 campioni MRI 3D (equivalenti a 17,9 milioni di immagini 2D) e oltre 1,37 miliardi di maschere di segmentazione 2D di 72 organi, tutti basati sul dataset MRI di UK Biobank. Utilizziamo l'etichettatura automatica, introduciamo una pipeline automatizzata di pulizia delle etichette con filtri specifici per organo e annotiamo manualmente un sottoinsieme di 300 MRI con 11 classi addominali per validare la qualità (denominato UKBOB-manual). Questo approccio consente di scalare la raccolta del dataset mantenendo la fiducia nelle etichette. Confermiamo ulteriormente la validità delle etichette dimostrando la generalizzazione zero-shot di modelli addestrati su UKBOB filtrato ad altri piccoli dataset etichettati di domini simili (ad esempio, MRI addominale). Per mitigare ulteriormente l'effetto delle etichette rumorose, proponiamo un nuovo metodo chiamato Entropy Test-time Adaptation (ETTA) per affinare l'output della segmentazione. Utilizziamo UKBOB per addestrare un modello di base, Swin-BOB, per la segmentazione di immagini mediche 3D basato sull'architettura Swin-UNetr, ottenendo risultati all'avanguardia in diversi benchmark di imaging medico 3D, inclusa la sfida BRATS per i tumori cerebrali MRI (con un miglioramento dello 0,4%) e il benchmark BTCV per le scansioni CT addominali (con un miglioramento dell'1,3%). I modelli pre-addestrati e il codice sono disponibili all'indirizzo https://emmanuelleb985.github.io/ukbob, e le etichette filtrate saranno rese disponibili con UK Biobank.
English
In medical imaging, the primary challenge is collecting large-scale labeled
data due to privacy concerns, logistics, and high labeling costs. In this work,
we present the UK Biobank Organs and Bones (UKBOB), the largest labeled dataset
of body organs, comprising 51,761 MRI 3D samples (equivalent to 17.9 million 2D
images) and more than 1.37 billion 2D segmentation masks of 72 organs, all
based on the UK Biobank MRI dataset. We utilize automatic labeling, introduce
an automated label cleaning pipeline with organ-specific filters, and manually
annotate a subset of 300 MRIs with 11 abdominal classes to validate the quality
(referred to as UKBOB-manual). This approach allows for scaling up the dataset
collection while maintaining confidence in the labels. We further confirm the
validity of the labels by demonstrating zero-shot generalization of trained
models on the filtered UKBOB to other small labeled datasets from similar
domains (e.g., abdominal MRI). To further mitigate the effect of noisy labels,
we propose a novel method called Entropy Test-time Adaptation (ETTA) to refine
the segmentation output. We use UKBOB to train a foundation model, Swin-BOB,
for 3D medical image segmentation based on the Swin-UNetr architecture,
achieving state-of-the-art results in several benchmarks in 3D medical imaging,
including the BRATS brain MRI tumor challenge (with a 0.4% improvement) and the
BTCV abdominal CT scan benchmark (with a 1.3% improvement). The pre-trained
models and the code are available at https://emmanuelleb985.github.io/ukbob ,
and the filtered labels will be made available with the UK Biobank.Summary
AI-Generated Summary