BIOMEDICA: Um Arquivo Aberto de Legendas de Imagens Biomédicas, Conjunto de Dados e Modelos de Visão-Linguagem Derivados da Literatura Científica

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

January 13, 2025
Autores: Alejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Austin Wolfgang Katzer, Collin Chiu, Anita Rau, Xiaohan Wang, Yuhui Zhang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy
cs.AI

Resumo

O desenvolvimento de modelos visão-linguagem (VLMs) é impulsionado por conjuntos de dados multimodais amplos e diversos. No entanto, o progresso em direção aos VLMs biomédicos generalistas é limitado pela falta de conjuntos de dados anotados e publicamente acessíveis em biologia e medicina. Os esforços existentes estão restritos a domínios específicos, não capturando toda a diversidade do conhecimento biomédico codificado na literatura científica. Para abordar essa lacuna, apresentamos o BIOMEDICA, um framework escalável e de código aberto para extrair, anotar e serializar a totalidade do subconjunto PubMed Central de Acesso Aberto em um conjunto de dados de fácil utilização e acesso público. Nosso framework gera um arquivo abrangente com mais de 24 milhões de pares únicos de imagem-texto de mais de 6 milhões de artigos. Metadados e anotações orientadas por especialistas também são fornecidos. Demonstramos a utilidade e acessibilidade de nosso recurso ao lançar o BMCA-CLIP, um conjunto de modelos no estilo CLIP continuamente pré-treinados no conjunto de dados BIOMEDICA via streaming, eliminando a necessidade de baixar 27 TB de dados localmente. Em média, nossos modelos alcançam desempenho de ponta em 40 tarefas - abrangendo patologia, radiologia, oftalmologia, dermatologia, cirurgia, biologia molecular, parasitologia e biologia celular - se destacando na classificação de zero-shot com uma melhoria média de 6,56% (chegando a 29,8% e 17,5% em dermatologia e oftalmologia, respectivamente), e com recuperação mais forte de imagem-texto, tudo isso usando 10 vezes menos computação. Para promover a reprodutibilidade e colaboração, disponibilizamos nosso código e conjunto de dados para a comunidade de pesquisa em geral.
English
The development of vision-language models (VLMs) is driven by large-scale and diverse multimodal datasets. However, progress toward generalist biomedical VLMs is limited by the lack of annotated, publicly accessible datasets across biology and medicine. Existing efforts are restricted to narrow domains, missing the full diversity of biomedical knowledge encoded in scientific literature. To address this gap, we introduce BIOMEDICA, a scalable, open-source framework to extract, annotate, and serialize the entirety of the PubMed Central Open Access subset into an easy-to-use, publicly accessible dataset.Our framework produces a comprehensive archive with over 24 million unique image-text pairs from over 6 million articles. Metadata and expert-guided annotations are also provided. We demonstrate the utility and accessibility of our resource by releasing BMCA-CLIP, a suite of CLIP-style models continuously pre-trained on the BIOMEDICA dataset via streaming, eliminating the need to download 27 TB of data locally.On average, our models achieve state-of-the-art performance across 40 tasks - spanning pathology, radiology, ophthalmology, dermatology, surgery, molecular biology, parasitology, and cell biology - excelling in zero-shot classification with a 6.56% average improvement (as high as 29.8% and 17.5% in dermatology and ophthalmology, respectively), and stronger image-text retrieval, all while using 10x less compute. To foster reproducibility and collaboration, we release our codebase and dataset for the broader research community.

Summary

AI-Generated Summary

PDF452January 14, 2025