ChatPaper.aiChatPaper

MedVLM-R1: Стимулирование способности к медицинскому рассуждению в моделях "визуальный язык" (VLM) с использованием обучения с подкреплением

MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning

February 26, 2025
Авторы: Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert
cs.AI

Аннотация

Рассуждения представляют собой ключевой рубеж для развития анализа медицинских изображений, где прозрачность и надежность играют центральную роль как в доверии клиницистов, так и в одобрении регулирующих органов. Хотя медицинские визуальные языковые модели (VLMs) демонстрируют потенциал для радиологических задач, большинство существующих VLMs просто выдают окончательные ответы, не раскрывая лежащих в их основе рассуждений. Чтобы устранить этот пробел, мы представляем MedVLM-R1 — медицинскую VLM, которая явно генерирует естественно-языковые рассуждения для повышения прозрачности и надежности. Вместо использования контролируемой тонкой настройки (SFT), которая часто страдает от переобучения на обучающих распределениях и не способствует формированию подлинных рассуждений, MedVLM-R1 применяет фреймворк обучения с подкреплением, который стимулирует модель находить интерпретируемые человеком пути рассуждений без использования каких-либо эталонов. Несмотря на ограниченные объемы обучающих данных (600 примеров визуальных вопросов и ответов) и параметров модели (2 миллиарда), MedVLM-R1 повышает точность с 55,11% до 78,22% на тестах для МРТ, КТ и рентгеновских снимков, превосходя более крупные модели, обученные на более чем миллионе примеров. Она также демонстрирует устойчивую обобщаемость в задачах за пределами обучающего распределения. Объединяя анализ медицинских изображений с явными рассуждениями, MedVLM-R1 знаменует собой важный шаг к созданию надежного и интерпретируемого ИИ в клинической практике.
English
Reasoning is a critical frontier for advancing medical image analysis, where transparency and trustworthiness play a central role in both clinician trust and regulatory approval. Although Medical Visual Language Models (VLMs) show promise for radiological tasks, most existing VLMs merely produce final answers without revealing the underlying reasoning. To address this gap, we introduce MedVLM-R1, a medical VLM that explicitly generates natural language reasoning to enhance transparency and trustworthiness. Instead of relying on supervised fine-tuning (SFT), which often suffers from overfitting to training distributions and fails to foster genuine reasoning, MedVLM-R1 employs a reinforcement learning framework that incentivizes the model to discover human-interpretable reasoning paths without using any reasoning references. Despite limited training data (600 visual question answering samples) and model parameters (2B), MedVLM-R1 boosts accuracy from 55.11% to 78.22% across MRI, CT, and X-ray benchmarks, outperforming larger models trained on over a million samples. It also demonstrates robust domain generalization under out-of-distribution tasks. By unifying medical image analysis with explicit reasoning, MedVLM-R1 marks a pivotal step toward trustworthy and interpretable AI in clinical practice.

Summary

AI-Generated Summary

PDF573February 28, 2025