ChatPaper.aiChatPaper

BIOMEDICA: 과학 문헌에서 파생된 오픈 바이오의료 이미지 캡션 아카이브, 데이터셋 및 비전-언어 모델

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

January 13, 2025
저자: Alejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Austin Wolfgang Katzer, Collin Chiu, Anita Rau, Xiaohan Wang, Yuhui Zhang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy
cs.AI

초록

시각-언어 모델(VLMs)의 발전은 대규모이고 다양한 다중 모달 데이터셋에 의해 주도됩니다. 그러나 일반적인 생명 의학 VLMs로의 진전은 생물학과 의학 영역에 걸쳐 주석이 달린 공개적으로 접근 가능한 데이터셋의 부족으로 제한됩니다. 기존의 노력은 좁은 도메인으로 제한되어 있어 과학 문헌에 인코딩된 생명 의학 지식의 전체 다양성을 놓치고 있습니다. 이러한 공백을 해결하기 위해 우리는 BIOMEDICA를 소개합니다. 이는 PubMed Central Open Access 하위 집합의 전체를 추출, 주석 달기 및 직렬화하는 확장 가능하고 오픈 소스 프레임워크입니다. 우리의 프레임워크는 6백만 개 이상의 논문에서 2천 4백만 개 이상의 고유한 이미지-텍스트 쌍을 포함하는 포괄적인 아카이브를 생성합니다. 메타데이터 및 전문가 지도 주석도 제공됩니다. 우리의 자원의 유효성과 접근성을 증명하기 위해, 우리는 BMCA-CLIP을 공개합니다. 이는 BIOMEDICA 데이터셋을 통해 지속적으로 사전 훈련된 CLIP 스타일 모델의 스트리밍을 통해 다운로드할 필요 없이 로컬로 27TB의 데이터를 사용합니다. 평균적으로, 우리의 모델은 병리학, 방사선학, 안과학, 피부과, 수술, 분자 생물학, 기생학 및 세포 생물학을 포함하는 40가지 작업에 걸쳐 최첨단 성능을 달성하며, 6.56%의 평균 개선(피부과 및 안과학에서 각각 29.8% 및 17.5%로 높음)과 더 강력한 이미지-텍스트 검색을 제공하면서도 10배 더 적은 컴퓨팅을 사용합니다. 재현성과 협업을 촉진하기 위해 우리는 코드베이스와 데이터셋을 보다 넓은 연구 커뮤니티에 공개합니다.
English
The development of vision-language models (VLMs) is driven by large-scale and diverse multimodal datasets. However, progress toward generalist biomedical VLMs is limited by the lack of annotated, publicly accessible datasets across biology and medicine. Existing efforts are restricted to narrow domains, missing the full diversity of biomedical knowledge encoded in scientific literature. To address this gap, we introduce BIOMEDICA, a scalable, open-source framework to extract, annotate, and serialize the entirety of the PubMed Central Open Access subset into an easy-to-use, publicly accessible dataset.Our framework produces a comprehensive archive with over 24 million unique image-text pairs from over 6 million articles. Metadata and expert-guided annotations are also provided. We demonstrate the utility and accessibility of our resource by releasing BMCA-CLIP, a suite of CLIP-style models continuously pre-trained on the BIOMEDICA dataset via streaming, eliminating the need to download 27 TB of data locally.On average, our models achieve state-of-the-art performance across 40 tasks - spanning pathology, radiology, ophthalmology, dermatology, surgery, molecular biology, parasitology, and cell biology - excelling in zero-shot classification with a 6.56% average improvement (as high as 29.8% and 17.5% in dermatology and ophthalmology, respectively), and stronger image-text retrieval, all while using 10x less compute. To foster reproducibility and collaboration, we release our codebase and dataset for the broader research community.

Summary

AI-Generated Summary

PDF502January 14, 2025