BIOMEDICA: Ein offenes biomedizinisches Bildunterschriften-Archiv, Datensatz und Vision-Sprache-Modelle abgeleitet aus wissenschaftlicher Literatur.
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature
January 13, 2025
Autoren: Alejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Austin Wolfgang Katzer, Collin Chiu, Anita Rau, Xiaohan Wang, Yuhui Zhang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy
cs.AI
Zusammenfassung
Die Entwicklung von Vision-Language-Modellen (VLMs) wird von umfangreichen und vielfältigen multimodalen Datensätzen vorangetrieben. Der Fortschritt hin zu generalistischen biomedizinischen VLMs wird jedoch durch den Mangel an annotierten, öffentlich zugänglichen Datensätzen in den Bereichen Biologie und Medizin eingeschränkt. Bestehende Bemühungen sind auf enge Domänen beschränkt und erfassen nicht die gesamte Vielfalt des biomedizinischen Wissens, das in wissenschaftlichen Publikationen codiert ist. Um diese Lücke zu schließen, stellen wir BIOMEDICA vor, ein skalierbares, Open-Source-Framework zur Extraktion, Annotation und Serialisierung des gesamten PubMed Central Open Access-Teils in einen benutzerfreundlichen, öffentlich zugänglichen Datensatz. Unser Framework erstellt ein umfassendes Archiv mit über 24 Millionen einzigartigen Bild-Text-Paaren aus über 6 Millionen Artikeln. Metadaten und expertengeführte Annotationen werden ebenfalls bereitgestellt. Wir zeigen die Nützlichkeit und Zugänglichkeit unserer Ressource, indem wir BMCA-CLIP veröffentlichen, eine Suite von CLIP-ähnlichen Modellen, die kontinuierlich auf dem BIOMEDICA-Datensatz über Streaming vorab trainiert werden, was den Bedarf an lokalem Herunterladen von 27 TB Daten eliminiert. Im Durchschnitt erzielen unsere Modelle eine Spitzenleistung in 40 Aufgaben - von Pathologie, Radiologie, Ophthalmologie, Dermatologie, Chirurgie, Molekularbiologie, Parasitologie bis Zellbiologie - mit einer durchschnittlichen Verbesserung von 6,56% im Zero-Shot-Klassifizierungsbereich (bis zu 29,8% bzw. 17,5% in Dermatologie bzw. Ophthalmologie) und einer stärkeren Bild-Text-Retrieval-Leistung, während sie nur 10-mal weniger Rechenleistung benötigen. Um die Reproduzierbarkeit und Zusammenarbeit zu fördern, veröffentlichen wir unseren Code und unseren Datensatz für die breitere Forschungsgemeinschaft.
English
The development of vision-language models (VLMs) is driven by large-scale and
diverse multimodal datasets. However, progress toward generalist biomedical
VLMs is limited by the lack of annotated, publicly accessible datasets across
biology and medicine. Existing efforts are restricted to narrow domains,
missing the full diversity of biomedical knowledge encoded in scientific
literature. To address this gap, we introduce BIOMEDICA, a scalable,
open-source framework to extract, annotate, and serialize the entirety of the
PubMed Central Open Access subset into an easy-to-use, publicly accessible
dataset.Our framework produces a comprehensive archive with over 24 million
unique image-text pairs from over 6 million articles. Metadata and
expert-guided annotations are also provided. We demonstrate the utility and
accessibility of our resource by releasing BMCA-CLIP, a suite of CLIP-style
models continuously pre-trained on the BIOMEDICA dataset via streaming,
eliminating the need to download 27 TB of data locally.On average, our models
achieve state-of-the-art performance across 40 tasks - spanning pathology,
radiology, ophthalmology, dermatology, surgery, molecular biology,
parasitology, and cell biology - excelling in zero-shot classification with a
6.56% average improvement (as high as 29.8% and 17.5% in dermatology and
ophthalmology, respectively), and stronger image-text retrieval, all while
using 10x less compute. To foster reproducibility and collaboration, we release
our codebase and dataset for the broader research community.Summary
AI-Generated Summary