MedVLM-R1: Стимулирование способности к медицинскому рассуждению в моделях "визуальный язык" (VLM) с использованием обучения с подкреплением
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning
February 26, 2025
Авторы: Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert
cs.AI
Аннотация
Рассуждения представляют собой ключевой рубеж для развития анализа медицинских изображений, где прозрачность и надежность играют центральную роль как в доверии клиницистов, так и в одобрении регулирующих органов. Хотя медицинские визуальные языковые модели (VLMs) демонстрируют потенциал для радиологических задач, большинство существующих VLMs просто выдают окончательные ответы, не раскрывая лежащих в их основе рассуждений. Чтобы устранить этот пробел, мы представляем MedVLM-R1 — медицинскую VLM, которая явно генерирует естественно-языковые рассуждения для повышения прозрачности и надежности. Вместо использования контролируемой тонкой настройки (SFT), которая часто страдает от переобучения на обучающих распределениях и не способствует формированию подлинных рассуждений, MedVLM-R1 применяет фреймворк обучения с подкреплением, который стимулирует модель находить интерпретируемые человеком пути рассуждений без использования каких-либо эталонов. Несмотря на ограниченные объемы обучающих данных (600 примеров визуальных вопросов и ответов) и параметров модели (2 миллиарда), MedVLM-R1 повышает точность с 55,11% до 78,22% на тестах для МРТ, КТ и рентгеновских снимков, превосходя более крупные модели, обученные на более чем миллионе примеров. Она также демонстрирует устойчивую обобщаемость в задачах за пределами обучающего распределения. Объединяя анализ медицинских изображений с явными рассуждениями, MedVLM-R1 знаменует собой важный шаг к созданию надежного и интерпретируемого ИИ в клинической практике.
English
Reasoning is a critical frontier for advancing medical image analysis, where
transparency and trustworthiness play a central role in both clinician trust
and regulatory approval. Although Medical Visual Language Models (VLMs) show
promise for radiological tasks, most existing VLMs merely produce final answers
without revealing the underlying reasoning. To address this gap, we introduce
MedVLM-R1, a medical VLM that explicitly generates natural language reasoning
to enhance transparency and trustworthiness. Instead of relying on supervised
fine-tuning (SFT), which often suffers from overfitting to training
distributions and fails to foster genuine reasoning, MedVLM-R1 employs a
reinforcement learning framework that incentivizes the model to discover
human-interpretable reasoning paths without using any reasoning references.
Despite limited training data (600 visual question answering samples) and model
parameters (2B), MedVLM-R1 boosts accuracy from 55.11% to 78.22% across MRI,
CT, and X-ray benchmarks, outperforming larger models trained on over a million
samples. It also demonstrates robust domain generalization under
out-of-distribution tasks. By unifying medical image analysis with explicit
reasoning, MedVLM-R1 marks a pivotal step toward trustworthy and interpretable
AI in clinical practice.Summary
AI-Generated Summary