SPIDER: Комплексный набор данных по патологии с аннотациями для нескольких органов и базовые модели
SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models
March 4, 2025
Авторы: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI
Аннотация
Развитие ИИ в области вычислительной патологии требует наличия больших, высококачественных и разнообразных наборов данных, однако существующие публичные наборы данных часто ограничены в разнообразии органов, охвате классов или качестве аннотаций. Чтобы устранить этот пробел, мы представляем SPIDER (Supervised Pathology Image-DEscription Repository) — крупнейший публично доступный набор данных на уровне патчей, охватывающий несколько типов органов, включая кожу, колоректальную область и грудную клетку, с полным охватом классов для каждого органа. SPIDER предоставляет высококачественные аннотации, проверенные экспертами-патологами, и включает окружающие контекстные патчи, которые улучшают производительность классификации за счет предоставления пространственного контекста.
Вместе с набором данных мы представляем базовые модели, обученные на SPIDER с использованием модели Hibou-L в качестве экстрактора признаков в сочетании с классификатором на основе механизма внимания. Эти модели демонстрируют передовые результаты в различных категориях тканей и служат надежными ориентирами для будущих исследований в области цифровой патологии. Помимо классификации патчей, модель позволяет быстро идентифицировать значимые области, количественно оценивать характеристики тканей и закладывает основу для мультимодальных подходов.
Как набор данных, так и обученные модели находятся в открытом доступе для содействия исследованиям, воспроизводимости и развитию ИИ в патологии. Доступ к ним можно получить по адресу:
https://github.com/HistAI/SPIDER
English
Advancing AI in computational pathology requires large, high-quality, and
diverse datasets, yet existing public datasets are often limited in organ
diversity, class coverage, or annotation quality. To bridge this gap, we
introduce SPIDER (Supervised Pathology Image-DEscription Repository), the
largest publicly available patch-level dataset covering multiple organ types,
including Skin, Colorectal, and Thorax, with comprehensive class coverage for
each organ. SPIDER provides high-quality annotations verified by expert
pathologists and includes surrounding context patches, which enhance
classification performance by providing spatial context.
Alongside the dataset, we present baseline models trained on SPIDER using the
Hibou-L foundation model as a feature extractor combined with an
attention-based classification head. The models achieve state-of-the-art
performance across multiple tissue categories and serve as strong benchmarks
for future digital pathology research. Beyond patch classification, the model
enables rapid identification of significant areas, quantitative tissue metrics,
and establishes a foundation for multimodal approaches.
Both the dataset and trained models are publicly available to advance
research, reproducibility, and AI-driven pathology development. Access them at:
https://github.com/HistAI/SPIDERSummary
AI-Generated Summary