BenchX: un quadro di riferimento unificato per il benchmark nell'ambito della visione e del linguaggio medico Preallenamento su radiografie del torace

BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays

October 29, 2024
Autori: Yang Zhou, Tan Li Hui Faith, Yanyu Xu, Sicong Leng, Xinxing Xu, Yong Liu, Rick Siow Mong Goh
cs.AI

Abstract

Il Preallenamento Medico Visione-Linguaggio (MedVLP) mostra promesse nell'apprendimento di rappresentazioni visive generalizzabili e trasferibili da immagini e relazioni mediche accoppiate e non accoppiate. MedVLP può fornire funzionalità utili per compiti successivi e facilitare l'adattamento di modelli specifici del compito a nuove configurazioni utilizzando meno esempi. Tuttavia, i metodi MedVLP esistenti spesso differiscono in termini di set di dati, preelaborazione e implementazioni di raffinamento. Ciò pone grandi sfide nell'valutare quanto bene un metodo MedVLP generalizzi a vari compiti clinicamente rilevanti a causa della mancanza di un benchmark unificato, standardizzato e completo. Per colmare questa lacuna, proponiamo BenchX, un framework di benchmark unificato che consente il confronto diretto e l'analisi sistematica tra i metodi MedVLP utilizzando set di dati pubblici di raggi X del torace. In particolare, BenchX è composto da tre componenti: 1) Set di dati completi che coprono nove set di dati e quattro compiti medici; 2) Suite di benchmark per standardizzare la preelaborazione dei dati, le divisioni di addestramento-test e la selezione dei parametri; 3) Protocolli di raffinamento unificati che permettono l'accomodamento di metodi MedVLP eterogenei per un adattamento coerente del compito nella classificazione, segmentazione e generazione di relazioni, rispettivamente. Utilizzando BenchX, stabiliamo baselines per nove metodi MedVLP all'avanguardia e abbiamo scoperto che le prestazioni di alcuni primi metodi MedVLP possono essere migliorate per superare quelli più recenti, spingendo a rivedere gli sviluppi e le conclusioni dei lavori precedenti in MedVLP. Il nostro codice è disponibile su https://github.com/yangzhou12/BenchX.
English
Medical Vision-Language Pretraining (MedVLP) shows promise in learning generalizable and transferable visual representations from paired and unpaired medical images and reports. MedVLP can provide useful features to downstream tasks and facilitate adapting task-specific models to new setups using fewer examples. However, existing MedVLP methods often differ in terms of datasets, preprocessing, and finetuning implementations. This pose great challenges in evaluating how well a MedVLP method generalizes to various clinically-relevant tasks due to the lack of unified, standardized, and comprehensive benchmark. To fill this gap, we propose BenchX, a unified benchmark framework that enables head-to-head comparison and systematical analysis between MedVLP methods using public chest X-ray datasets. Specifically, BenchX is composed of three components: 1) Comprehensive datasets covering nine datasets and four medical tasks; 2) Benchmark suites to standardize data preprocessing, train-test splits, and parameter selection; 3) Unified finetuning protocols that accommodate heterogeneous MedVLP methods for consistent task adaptation in classification, segmentation, and report generation, respectively. Utilizing BenchX, we establish baselines for nine state-of-the-art MedVLP methods and found that the performance of some early MedVLP methods can be enhanced to surpass more recent ones, prompting a revisiting of the developments and conclusions from prior works in MedVLP. Our code are available at https://github.com/yangzhou12/BenchX.

Summary

AI-Generated Summary

PDF92November 13, 2024