BenchX: Een Geünificeerd Beoordelingskader voor Medische Visie-Taal Vooraftraining op Borst X-stralen
BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays
October 29, 2024
Auteurs: Yang Zhou, Tan Li Hui Faith, Yanyu Xu, Sicong Leng, Xinxing Xu, Yong Liu, Rick Siow Mong Goh
cs.AI
Samenvatting
Medisch Vision-Language Pretraining (MedVLP) toont belofte in het leren van generaliseerbare en overdraagbare visuele representaties van gekoppelde en ongekoppelde medische beelden en verslagen. MedVLP kan nuttige functies bieden voor downstream taken en het aanpassen van taakspecifieke modellen aan nieuwe opstellingen vergemakkelijken met minder voorbeelden. Echter, bestaande MedVLP-methoden verschillen vaak qua datasets, voorbewerking en finetuning-implementaties. Dit vormt grote uitdagingen bij het evalueren van hoe goed een MedVLP-methode generaliseert naar verschillende klinisch relevante taken vanwege het ontbreken van een eenduidige, gestandaardiseerde en uitgebreide benchmark. Om deze leemte op te vullen, stellen we BenchX voor, een verenigd benchmarkkader dat een directe vergelijking en systematische analyse tussen MedVLP-methoden mogelijk maakt met behulp van openbare borst-X-ray-datasets. Specifiek bestaat BenchX uit drie componenten: 1) Uitgebreide datasets die negen datasets en vier medische taken beslaan; 2) Benchmark suites om gegevensvoorbewerking, train-test splitsingen en parameterselectie te standaardiseren; 3) Verenigde finetuning-protocollen die heterogene MedVLP-methoden accommoderen voor consistente taakaanpassing in respectievelijk classificatie, segmentatie en verslaggeneratie. Door gebruik te maken van BenchX stellen we baselines vast voor negen toonaangevende MedVLP-methoden en hebben we ontdekt dat de prestaties van sommige vroege MedVLP-methoden kunnen worden verbeterd om recentere te overtreffen, wat een herziening van de ontwikkelingen en conclusies uit eerdere werken in MedVLP aanmoedigt. Onze code is beschikbaar op https://github.com/yangzhou12/BenchX.
English
Medical Vision-Language Pretraining (MedVLP) shows promise in learning
generalizable and transferable visual representations from paired and unpaired
medical images and reports. MedVLP can provide useful features to downstream
tasks and facilitate adapting task-specific models to new setups using fewer
examples. However, existing MedVLP methods often differ in terms of datasets,
preprocessing, and finetuning implementations. This pose great challenges in
evaluating how well a MedVLP method generalizes to various clinically-relevant
tasks due to the lack of unified, standardized, and comprehensive benchmark. To
fill this gap, we propose BenchX, a unified benchmark framework that enables
head-to-head comparison and systematical analysis between MedVLP methods using
public chest X-ray datasets. Specifically, BenchX is composed of three
components: 1) Comprehensive datasets covering nine datasets and four medical
tasks; 2) Benchmark suites to standardize data preprocessing, train-test
splits, and parameter selection; 3) Unified finetuning protocols that
accommodate heterogeneous MedVLP methods for consistent task adaptation in
classification, segmentation, and report generation, respectively. Utilizing
BenchX, we establish baselines for nine state-of-the-art MedVLP methods and
found that the performance of some early MedVLP methods can be enhanced to
surpass more recent ones, prompting a revisiting of the developments and
conclusions from prior works in MedVLP. Our code are available at
https://github.com/yangzhou12/BenchX.Summary
AI-Generated Summary