CheXWorld: Onderzoek naar Image World Modeling voor Radiografische Representatie Leren
CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning
April 18, 2025
Auteurs: Yang Yue, Yulin Wang, Chenxin Tao, Pan Liu, Shiji Song, Gao Huang
cs.AI
Samenvatting
Mensen kunnen interne wereldmodellen ontwikkelen die gezond verstand coderen, hen vertellen hoe de wereld werkt en de gevolgen van hun acties voorspellen. Dit concept is naar voren gekomen als een veelbelovende richting voor het ontwikkelen van algemene machine learning-modellen in recente voorlopige werken, bijvoorbeeld voor visuele representatie leren. In dit artikel presenteren we CheXWorld, de eerste poging tot een zelf-superviserend wereldmodel voor radiografische afbeeldingen. Specifiek ontwikkelt ons werk een geïntegreerd framework dat gelijktijdig drie aspecten van medische kennis modelleert die essentieel zijn voor gekwalificeerde radiologen, waaronder 1) lokale anatomische structuren die de fijnmazige kenmerken van lokale weefsels beschrijven (bijv. architectuur, vormen en texturen); 2) globale anatomische lay-outs die de globale organisatie van het menselijk lichaam beschrijven (bijv. lay-outs van organen en skeletten); en 3) domeinvariaties die CheXWorld aanmoedigen om de overgangen tussen verschillende verschijningsdomeinen van radiografieën te modelleren (bijv. variërende helderheid, contrast en belichting veroorzaakt door het verzamelen van radiografieën van verschillende ziekenhuizen, apparaten of patiënten). Empirisch ontwerpen we op maat gemaakte kwalitatieve en kwantitatieve analyses, die aantonen dat CheXWorld met succes deze drie dimensies van medische kennis vastlegt. Bovendien laten transfer learning-experimenten over acht medische beeldclassificatie- en segmentatiebenchmarks zien dat CheXWorld aanzienlijk beter presteert dan bestaande SSL-methoden en grootschalige medische foundation-modellen. Code en vooraf getrainde modellen zijn beschikbaar op https://github.com/LeapLabTHU/CheXWorld.
English
Humans can develop internal world models that encode common sense knowledge,
telling them how the world works and predicting the consequences of their
actions. This concept has emerged as a promising direction for establishing
general-purpose machine-learning models in recent preliminary works, e.g., for
visual representation learning. In this paper, we present CheXWorld, the first
effort towards a self-supervised world model for radiographic images.
Specifically, our work develops a unified framework that simultaneously models
three aspects of medical knowledge essential for qualified radiologists,
including 1) local anatomical structures describing the fine-grained
characteristics of local tissues (e.g., architectures, shapes, and textures);
2) global anatomical layouts describing the global organization of the human
body (e.g., layouts of organs and skeletons); and 3) domain variations that
encourage CheXWorld to model the transitions across different appearance
domains of radiographs (e.g., varying clarity, contrast, and exposure caused by
collecting radiographs from different hospitals, devices, or patients).
Empirically, we design tailored qualitative and quantitative analyses,
revealing that CheXWorld successfully captures these three dimensions of
medical knowledge. Furthermore, transfer learning experiments across eight
medical image classification and segmentation benchmarks showcase that
CheXWorld significantly outperforms existing SSL methods and large-scale
medical foundation models. Code & pre-trained models are available at
https://github.com/LeapLabTHU/CheXWorld.Summary
AI-Generated Summary