Avancées en coloscopie intelligente

Frontiers in Intelligent Colonoscopy

October 22, 2024
Auteurs: Ge-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan
cs.AI

Résumé

La coloscopie est actuellement l'une des méthodes de dépistage les plus sensibles pour le cancer colorectal. Cette étude explore les frontières des techniques de coloscopie intelligentes et leurs implications prospectives pour les applications médicales multimodales. Dans cette optique, nous commençons par évaluer les paysages actuels centrés sur les données et les modèles à travers quatre tâches de perception de scène coloscopique, comprenant la classification, la détection, la segmentation et la compréhension vision-langage. Cette évaluation nous permet d'identifier les défis spécifiques au domaine et révèle que la recherche multimodale en coloscopie reste ouverte à de nouvelles explorations. Pour embrasser l'ère multimodale à venir, nous établissons trois initiatives fondamentales : un ensemble de données d'accord multimodal à grande échelle, ColonINST, un modèle de langage multimodal conçu pour la coloscopie, ColonGPT, et un banc d'essai multimodal. Pour faciliter la surveillance continue de ce domaine en évolution rapide, nous mettons à disposition un site web public pour les dernières mises à jour : https://github.com/ai4colonoscopy/IntelliScope.
English
Colonoscopy is currently one of the most sensitive screening methods for colorectal cancer. This study investigates the frontiers of intelligent colonoscopy techniques and their prospective implications for multimodal medical applications. With this goal, we begin by assessing the current data-centric and model-centric landscapes through four tasks for colonoscopic scene perception, including classification, detection, segmentation, and vision-language understanding. This assessment enables us to identify domain-specific challenges and reveals that multimodal research in colonoscopy remains open for further exploration. To embrace the coming multimodal era, we establish three foundational initiatives: a large-scale multimodal instruction tuning dataset ColonINST, a colonoscopy-designed multimodal language model ColonGPT, and a multimodal benchmark. To facilitate ongoing monitoring of this rapidly evolving field, we provide a public website for the latest updates: https://github.com/ai4colonoscopy/IntelliScope.

Summary

AI-Generated Summary

PDF22November 16, 2024