BenchX : un cadre de référence unifié pour l'entraînement préalable à la vision-langage médicale sur les radiographies pulmonaires
BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays
October 29, 2024
Auteurs: Yang Zhou, Tan Li Hui Faith, Yanyu Xu, Sicong Leng, Xinxing Xu, Yong Liu, Rick Siow Mong Goh
cs.AI
Résumé
La Pré-entraînement Vision-Language Médicale (MedVLP) montre des promesses dans l'apprentissage de représentations visuelles généralisables et transférables à partir d'images médicales et de rapports appariés et non appariés. MedVLP peut fournir des caractéristiques utiles pour les tâches en aval et faciliter l'adaptation de modèles spécifiques à la tâche à de nouvelles configurations en utilisant moins d'exemples. Cependant, les méthodes MedVLP existantes diffèrent souvent en termes de jeux de données, de prétraitement et d'implémentations de finetuning. Cela pose de grands défis pour évaluer dans quelle mesure une méthode MedVLP généralise à diverses tâches cliniquement pertinentes en raison du manque de référentiel unifié, normalisé et complet. Pour combler cette lacune, nous proposons BenchX, un cadre de référence unifié qui permet la comparaison directe et l'analyse systématique entre les méthodes MedVLP en utilisant des ensembles de données de radiographies pulmonaires publics. Plus précisément, BenchX se compose de trois composantes : 1) Des ensembles de données complets couvrant neuf ensembles de données et quatre tâches médicales ; 2) Des suites de référence pour standardiser le prétraitement des données, les divisions entraînement-test et la sélection des paramètres ; 3) Des protocoles de finetuning unifiés qui accueillent des méthodes MedVLP hétérogènes pour une adaptation cohérente à la tâche en classification, segmentation et génération de rapports, respectivement. En utilisant BenchX, nous établissons des lignes directrices pour neuf méthodes MedVLP de pointe et avons constaté que les performances de certaines premières méthodes MedVLP peuvent être améliorées pour surpasser des méthodes plus récentes, incitant à reconsidérer les développements et conclusions des travaux antérieurs en MedVLP. Notre code est disponible sur https://github.com/yangzhou12/BenchX.
English
Medical Vision-Language Pretraining (MedVLP) shows promise in learning
generalizable and transferable visual representations from paired and unpaired
medical images and reports. MedVLP can provide useful features to downstream
tasks and facilitate adapting task-specific models to new setups using fewer
examples. However, existing MedVLP methods often differ in terms of datasets,
preprocessing, and finetuning implementations. This pose great challenges in
evaluating how well a MedVLP method generalizes to various clinically-relevant
tasks due to the lack of unified, standardized, and comprehensive benchmark. To
fill this gap, we propose BenchX, a unified benchmark framework that enables
head-to-head comparison and systematical analysis between MedVLP methods using
public chest X-ray datasets. Specifically, BenchX is composed of three
components: 1) Comprehensive datasets covering nine datasets and four medical
tasks; 2) Benchmark suites to standardize data preprocessing, train-test
splits, and parameter selection; 3) Unified finetuning protocols that
accommodate heterogeneous MedVLP methods for consistent task adaptation in
classification, segmentation, and report generation, respectively. Utilizing
BenchX, we establish baselines for nine state-of-the-art MedVLP methods and
found that the performance of some early MedVLP methods can be enhanced to
surpass more recent ones, prompting a revisiting of the developments and
conclusions from prior works in MedVLP. Our code are available at
https://github.com/yangzhou12/BenchX.Summary
AI-Generated Summary