지능적 대장 내시경의 선두 주자

Frontiers in Intelligent Colonoscopy

October 22, 2024
저자: Ge-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan
cs.AI

초록

대장경은 현재 대장암의 가장 민감한 선별 방법 중 하나입니다. 본 연구는 지능적인 대장경 기술의 최전선과 다중 모달 의료 응용 프로그램에 대한 잠재적 영향을 조사합니다. 이를 위해 우리는 현재의 데이터 중심 및 모델 중심 환경을 대장경 장면 인식을 위한 네 가지 작업을 통해 평가합니다. 이 작업에는 분류, 탐지, 분할 및 시각-언어 이해가 포함됩니다. 이 평가를 통해 도메인별 도전 과제를 식별하고 대장경에서의 다중 모달 연구가 더 많은 탐구를 위해 여전히 열려 있다는 것을 밝혀냅니다. 다가오는 다중 모달 시대를 수용하기 위해 우리는 세 가지 기본적인 계획을 수립합니다. 대규모 다중 모달 지시 조정 데이터 세트 ColonINST, 대장경에 특화된 다중 모달 언어 모델 ColonGPT 및 다중 모달 벤치마크입니다. 이 신속히 발전하는 분야의 지속적인 모니터링을 촉진하기 위해 최신 업데이트를 위한 공개 웹사이트를 제공합니다: https://github.com/ai4colonoscopy/IntelliScope.
English
Colonoscopy is currently one of the most sensitive screening methods for colorectal cancer. This study investigates the frontiers of intelligent colonoscopy techniques and their prospective implications for multimodal medical applications. With this goal, we begin by assessing the current data-centric and model-centric landscapes through four tasks for colonoscopic scene perception, including classification, detection, segmentation, and vision-language understanding. This assessment enables us to identify domain-specific challenges and reveals that multimodal research in colonoscopy remains open for further exploration. To embrace the coming multimodal era, we establish three foundational initiatives: a large-scale multimodal instruction tuning dataset ColonINST, a colonoscopy-designed multimodal language model ColonGPT, and a multimodal benchmark. To facilitate ongoing monitoring of this rapidly evolving field, we provide a public website for the latest updates: https://github.com/ai4colonoscopy/IntelliScope.

Summary

AI-Generated Summary

PDF22November 16, 2024