BenchX: 흉부 X-선에 대한 의료 비전-언어 사전 훈련을 위한 통합된 벤치마크 프레임워크
BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays
October 29, 2024
저자: Yang Zhou, Tan Li Hui Faith, Yanyu Xu, Sicong Leng, Xinxing Xu, Yong Liu, Rick Siow Mong Goh
cs.AI
초록
의료 비전-언어 사전 훈련(MedVLP)은 짝지어진 및 짝지어지지 않은 의료 이미지와 보고서에서 일반화 가능하고 이전 가능한 시각적 표현을 학습하는 데 유망성을 보여줍니다. MedVLP는 하류 작업에 유용한 기능을 제공하고 적은 예제를 사용하여 새로운 설정에 작업별 모델을 적응시키는 데 도움을 줄 수 있습니다. 그러나 기존의 MedVLP 방법은 데이터셋, 전처리 및 세부 조정 구현 측면에서 종종 차이가 있습니다. 이는 통일되고 표준화된 포괄적인 벤치마크의 부재로 인해 MedVLP 방법이 다양한 임상 관련 작업에 얼마나 잘 일반화되는지를 평가하는 데 큰 어려움을 야기합니다. 이 공백을 채우기 위해 우리는 BenchX를 제안합니다. BenchX는 공개 흉부 X-선 데이터셋을 사용하여 MedVLP 방법 간의 대등 비교와 체계적 분석을 가능하게 하는 통합된 벤치마크 프레임워크입니다. 구체적으로, BenchX는 다음 세 가지 구성 요소로 구성됩니다: 1) 아홉 가지 데이터셋과 네 가지 의료 작업을 포함하는 포괄적인 데이터셋; 2) 데이터 전처리, 훈련-테스트 분할 및 매개 변수 선택을 표준화하는 벤치마크 스위트; 3) 분류, 분할 및 보고서 생성에 대한 일관된 작업 적응을 위해 이질적인 MedVLP 방법을 수용하는 통합된 세부 조정 프로토콜. BenchX를 활용하여 우리는 아홉 가지 최첨단 MedVLP 방법에 대한 기준선을 설정하고, 일부 초기 MedVLP 방법의 성능을 향상시켜 더 최근 것들을 능가할 수 있다는 것을 발견하여, MedVLP의 이전 작업에서의 발전과 결론을 재방문할 것을 촉구합니다. 우리의 코드는 https://github.com/yangzhou12/BenchX에서 사용할 수 있습니다.
English
Medical Vision-Language Pretraining (MedVLP) shows promise in learning
generalizable and transferable visual representations from paired and unpaired
medical images and reports. MedVLP can provide useful features to downstream
tasks and facilitate adapting task-specific models to new setups using fewer
examples. However, existing MedVLP methods often differ in terms of datasets,
preprocessing, and finetuning implementations. This pose great challenges in
evaluating how well a MedVLP method generalizes to various clinically-relevant
tasks due to the lack of unified, standardized, and comprehensive benchmark. To
fill this gap, we propose BenchX, a unified benchmark framework that enables
head-to-head comparison and systematical analysis between MedVLP methods using
public chest X-ray datasets. Specifically, BenchX is composed of three
components: 1) Comprehensive datasets covering nine datasets and four medical
tasks; 2) Benchmark suites to standardize data preprocessing, train-test
splits, and parameter selection; 3) Unified finetuning protocols that
accommodate heterogeneous MedVLP methods for consistent task adaptation in
classification, segmentation, and report generation, respectively. Utilizing
BenchX, we establish baselines for nine state-of-the-art MedVLP methods and
found that the performance of some early MedVLP methods can be enhanced to
surpass more recent ones, prompting a revisiting of the developments and
conclusions from prior works in MedVLP. Our code are available at
https://github.com/yangzhou12/BenchX.Summary
AI-Generated Summary