BIOMEDICA: un Archivio Aperto di Immagini Biomediche con Didascalie, Dataset e Modelli Visione-Linguaggio Derivati dalla Letteratura Scientifica

Abstract

Lo sviluppo dei modelli visione-linguaggio (VLM) è guidato da dataset multimodali su larga scala e diversificati. Tuttavia, il progresso verso VLM biomedici generalisti è limitato dalla mancanza di dataset annotati e accessibili pubblicamente in biologia e medicina. Gli sforzi esistenti sono limitati a settori specifici, trascurando l'intera diversità della conoscenza biomedica codificata nella letteratura scientifica. Per affrontare questa lacuna, presentiamo BIOMEDICA, un framework scalabile e open-source per estrarre, annotare e serializzare l'intero sottoinsieme di PubMed Central Open Access in un dataset di facile utilizzo e accessibile pubblicamente. Il nostro framework produce un archivio completo con oltre 24 milioni di coppie univoche immagine-testo da oltre 6 milioni di articoli. Vengono inoltre fornati metadati e annotazioni guidate da esperti. Dimostriamo l'utilità e l'accessibilità delle nostre risorse rilasciando BMCA-CLIP, una serie di modelli in stile CLIP continuamente pre-addestrati sul dataset BIOMEDICA tramite streaming, eliminando la necessità di scaricare 27 TB di dati in locale. In media, i nostri modelli raggiungono prestazioni all'avanguardia su 40 compiti - che spaziano dalla patologia, radiologia, oftalmologia, dermatologia, chirurgia, biologia molecolare, parassitologia e biologia cellulare - eccellendo nella classificazione a zero-shot con un miglioramento medio del 6,56% (fino al 29,8% e 17,5% rispettivamente in dermatologia e oftalmologia), e un recupero immagine-testo più robusto, il tutto utilizzando 10 volte meno risorse computazionali. Per favorire la riproducibilità e la collaborazione, rilasciamo il nostro codice sorgente e il dataset per la comunità di ricerca più ampia.

English

The development of vision-language models (VLMs) is driven by large-scale and diverse multimodal datasets. However, progress toward generalist biomedical VLMs is limited by the lack of annotated, publicly accessible datasets across biology and medicine. Existing efforts are restricted to narrow domains, missing the full diversity of biomedical knowledge encoded in scientific literature. To address this gap, we introduce BIOMEDICA, a scalable, open-source framework to extract, annotate, and serialize the entirety of the PubMed Central Open Access subset into an easy-to-use, publicly accessible dataset.Our framework produces a comprehensive archive with over 24 million unique image-text pairs from over 6 million articles. Metadata and expert-guided annotations are also provided. We demonstrate the utility and accessibility of our resource by releasing BMCA-CLIP, a suite of CLIP-style models continuously pre-trained on the BIOMEDICA dataset via streaming, eliminating the need to download 27 TB of data locally.On average, our models achieve state-of-the-art performance across 40 tasks - spanning pathology, radiology, ophthalmology, dermatology, surgery, molecular biology, parasitology, and cell biology - excelling in zero-shot classification with a 6.56% average improvement (as high as 29.8% and 17.5% in dermatology and ophthalmology, respectively), and stronger image-text retrieval, all while using 10x less compute. To foster reproducibility and collaboration, we release our codebase and dataset for the broader research community.

BIOMEDICA: un Archivio Aperto di Immagini Biomediche con Didascalie, Dataset e Modelli Visione-Linguaggio Derivati dalla Letteratura Scientifica

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

Abstract

Summary

Support