BIOMEDICA: un Archivio Aperto di Immagini Biomediche con Didascalie, Dataset e Modelli Visione-Linguaggio Derivati dalla Letteratura Scientifica
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature
January 13, 2025
Autori: Alejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Austin Wolfgang Katzer, Collin Chiu, Anita Rau, Xiaohan Wang, Yuhui Zhang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy
cs.AI
Abstract
Lo sviluppo dei modelli visione-linguaggio (VLM) è guidato da dataset multimodali su larga scala e diversificati. Tuttavia, il progresso verso VLM biomedici generalisti è limitato dalla mancanza di dataset annotati e accessibili pubblicamente in biologia e medicina. Gli sforzi esistenti sono limitati a settori specifici, trascurando l'intera diversità della conoscenza biomedica codificata nella letteratura scientifica. Per affrontare questa lacuna, presentiamo BIOMEDICA, un framework scalabile e open-source per estrarre, annotare e serializzare l'intero sottoinsieme di PubMed Central Open Access in un dataset di facile utilizzo e accessibile pubblicamente. Il nostro framework produce un archivio completo con oltre 24 milioni di coppie univoche immagine-testo da oltre 6 milioni di articoli. Vengono inoltre fornati metadati e annotazioni guidate da esperti. Dimostriamo l'utilità e l'accessibilità delle nostre risorse rilasciando BMCA-CLIP, una serie di modelli in stile CLIP continuamente pre-addestrati sul dataset BIOMEDICA tramite streaming, eliminando la necessità di scaricare 27 TB di dati in locale. In media, i nostri modelli raggiungono prestazioni all'avanguardia su 40 compiti - che spaziano dalla patologia, radiologia, oftalmologia, dermatologia, chirurgia, biologia molecolare, parassitologia e biologia cellulare - eccellendo nella classificazione a zero-shot con un miglioramento medio del 6,56% (fino al 29,8% e 17,5% rispettivamente in dermatologia e oftalmologia), e un recupero immagine-testo più robusto, il tutto utilizzando 10 volte meno risorse computazionali. Per favorire la riproducibilità e la collaborazione, rilasciamo il nostro codice sorgente e il dataset per la comunità di ricerca più ampia.
English
The development of vision-language models (VLMs) is driven by large-scale and
diverse multimodal datasets. However, progress toward generalist biomedical
VLMs is limited by the lack of annotated, publicly accessible datasets across
biology and medicine. Existing efforts are restricted to narrow domains,
missing the full diversity of biomedical knowledge encoded in scientific
literature. To address this gap, we introduce BIOMEDICA, a scalable,
open-source framework to extract, annotate, and serialize the entirety of the
PubMed Central Open Access subset into an easy-to-use, publicly accessible
dataset.Our framework produces a comprehensive archive with over 24 million
unique image-text pairs from over 6 million articles. Metadata and
expert-guided annotations are also provided. We demonstrate the utility and
accessibility of our resource by releasing BMCA-CLIP, a suite of CLIP-style
models continuously pre-trained on the BIOMEDICA dataset via streaming,
eliminating the need to download 27 TB of data locally.On average, our models
achieve state-of-the-art performance across 40 tasks - spanning pathology,
radiology, ophthalmology, dermatology, surgery, molecular biology,
parasitology, and cell biology - excelling in zero-shot classification with a
6.56% average improvement (as high as 29.8% and 17.5% in dermatology and
ophthalmology, respectively), and stronger image-text retrieval, all while
using 10x less compute. To foster reproducibility and collaboration, we release
our codebase and dataset for the broader research community.Summary
AI-Generated Summary