BenchX: Ein einheitlicher Benchmark-Rahmen für die Vorabtrainierung von medizinischen Vision-Sprache-Modellen an Brust-Röntgenaufnahmen
BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays
October 29, 2024
Autoren: Yang Zhou, Tan Li Hui Faith, Yanyu Xu, Sicong Leng, Xinxing Xu, Yong Liu, Rick Siow Mong Goh
cs.AI
Zusammenfassung
Die medizinische Vision-Sprachvorbereitung (MedVLP) zeigt vielversprechende Ansätze beim Erlernen von generalisierbaren und übertragbaren visuellen Repräsentationen aus gepaarten und ungepaarten medizinischen Bildern und Berichten. MedVLP kann nützliche Merkmale für nachgelagerte Aufgaben bereitstellen und die Anpassung aufgabenbezogener Modelle an neue Setups mit weniger Beispielen erleichtern. Allerdings unterscheiden sich bestehende MedVLP-Methoden oft hinsichtlich Datensätzen, Vorverarbeitung und Feinabstimmungs-Implementierungen. Dies stellt große Herausforderungen bei der Bewertung dar, wie gut eine MedVLP-Methode auf verschiedene klinisch relevante Aufgaben verallgemeinert, aufgrund des Mangels an vereinheitlichten, standardisierten und umfassenden Benchmarks. Um diese Lücke zu schließen, schlagen wir BenchX vor, ein vereinheitlichtes Benchmark-Framework, das einen direkten Vergleich und eine systematische Analyse zwischen MedVLP-Methoden unter Verwendung öffentlicher Brust-Röntgen-Datensätze ermöglicht. Speziell besteht BenchX aus drei Komponenten: 1) Umfassende Datensätze, die neun Datensätze und vier medizinische Aufgaben abdecken; 2) Benchmark-Suiten zur Standardisierung der Datenvorverarbeitung, Trainings-Test-Aufteilungen und Parameterauswahl; 3) Vereinheitlichte Feinabstimmungsprotokolle, die heterogene MedVLP-Methoden für eine konsistente Aufgabenanpassung in Klassifizierung, Segmentierung und Berichterstellung aufnehmen. Durch die Nutzung von BenchX etablieren wir Baselines für neun hochmoderne MedVLP-Methoden und stellten fest, dass die Leistung einiger früher MedVLP-Methoden verbessert werden kann, um neuere zu übertreffen, was eine Überprüfung der Entwicklungen und Schlussfolgerungen aus früheren Arbeiten im Bereich MedVLP anregt. Unser Code ist verfügbar unter https://github.com/yangzhou12/BenchX.
English
Medical Vision-Language Pretraining (MedVLP) shows promise in learning
generalizable and transferable visual representations from paired and unpaired
medical images and reports. MedVLP can provide useful features to downstream
tasks and facilitate adapting task-specific models to new setups using fewer
examples. However, existing MedVLP methods often differ in terms of datasets,
preprocessing, and finetuning implementations. This pose great challenges in
evaluating how well a MedVLP method generalizes to various clinically-relevant
tasks due to the lack of unified, standardized, and comprehensive benchmark. To
fill this gap, we propose BenchX, a unified benchmark framework that enables
head-to-head comparison and systematical analysis between MedVLP methods using
public chest X-ray datasets. Specifically, BenchX is composed of three
components: 1) Comprehensive datasets covering nine datasets and four medical
tasks; 2) Benchmark suites to standardize data preprocessing, train-test
splits, and parameter selection; 3) Unified finetuning protocols that
accommodate heterogeneous MedVLP methods for consistent task adaptation in
classification, segmentation, and report generation, respectively. Utilizing
BenchX, we establish baselines for nine state-of-the-art MedVLP methods and
found that the performance of some early MedVLP methods can be enhanced to
surpass more recent ones, prompting a revisiting of the developments and
conclusions from prior works in MedVLP. Our code are available at
https://github.com/yangzhou12/BenchX.Summary
AI-Generated Summary