BIOMEDICA: 科学文献から派生したオープンな生体医用画像キャプションアーカイブ、データセット、およびビジョン言語モデル
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature
January 13, 2025
著者: Alejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Austin Wolfgang Katzer, Collin Chiu, Anita Rau, Xiaohan Wang, Yuhui Zhang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy
cs.AI
要旨
ビジョン言語モデル(VLM)の開発は、大規模かつ多様なマルチモーダルデータセットによって推進されています。しかしながら、一般的なバイオメディカルVLMへの進展は、生物学と医学全般にわたる注釈付きで一般にアクセス可能なデータセットの不足によって制約されています。既存の取り組みは狭い領域に制限されており、科学文献にコード化されたバイオメディカル知識の完全な多様性が欠けています。このギャップを埋めるために、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアル化するための使いやすい、一般にアクセス可能なデータセットを提供するスケーラブルでオープンソースのフレームワークであるBIOMEDICAを紹介します。当フレームワークは、600万以上の記事から24百万以上のユニークな画像テキストペアを含む包括的なアーカイブを生成します。メタデータと専門家による注釈も提供されます。BIOMEDICAデータセットを介して連続的に事前学習されたCLIPスタイルのモデル群であるBMCA-CLIPをリリースすることで、ローカルで27 TBのデータをダウンロードする必要がなくなり、リソースの有用性とアクセシビリティを実証します。平均して、当モデルは40のタスク全体で最先端のパフォーマンスを達成し、病理学、放射線学、眼科学、皮膚科、外科、分子生物学、寄生虫学、細胞生物学を網羅し、ゼロショット分類で6.56%の平均改善(皮膚科と眼科学ではそれぞれ29.8%と17.5%の高さ)を達成し、より強力な画像テキスト検索を実現しつつ、10分の1の計算資源を使用します。再現性と協力を促進するために、当コードベースとデータセットを研究コミュニティ全体に公開します。
English
The development of vision-language models (VLMs) is driven by large-scale and
diverse multimodal datasets. However, progress toward generalist biomedical
VLMs is limited by the lack of annotated, publicly accessible datasets across
biology and medicine. Existing efforts are restricted to narrow domains,
missing the full diversity of biomedical knowledge encoded in scientific
literature. To address this gap, we introduce BIOMEDICA, a scalable,
open-source framework to extract, annotate, and serialize the entirety of the
PubMed Central Open Access subset into an easy-to-use, publicly accessible
dataset.Our framework produces a comprehensive archive with over 24 million
unique image-text pairs from over 6 million articles. Metadata and
expert-guided annotations are also provided. We demonstrate the utility and
accessibility of our resource by releasing BMCA-CLIP, a suite of CLIP-style
models continuously pre-trained on the BIOMEDICA dataset via streaming,
eliminating the need to download 27 TB of data locally.On average, our models
achieve state-of-the-art performance across 40 tasks - spanning pathology,
radiology, ophthalmology, dermatology, surgery, molecular biology,
parasitology, and cell biology - excelling in zero-shot classification with a
6.56% average improvement (as high as 29.8% and 17.5% in dermatology and
ophthalmology, respectively), and stronger image-text retrieval, all while
using 10x less compute. To foster reproducibility and collaboration, we release
our codebase and dataset for the broader research community.Summary
AI-Generated Summary