Neuigkeiten in der intelligenten Koloskopie
Frontiers in Intelligent Colonoscopy
October 22, 2024
Autoren: Ge-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan
cs.AI
Zusammenfassung
Die Koloskopie ist derzeit eine der sensibelsten Screening-Methoden für Darmkrebs. Diese Studie untersucht die Grenzen intelligenter Koloskopietechniken und deren potenzielle Auswirkungen auf multimodale medizinische Anwendungen. Zu diesem Zweck beginnen wir mit der Bewertung der aktuellen datenzentrierten und modellzentrierten Landschaften durch vier Aufgaben für die koloskopische Szenenwahrnehmung, einschließlich Klassifizierung, Detektion, Segmentierung und Vision-Sprachverständnis. Diese Bewertung ermöglicht es uns, domänenspezifische Herausforderungen zu identifizieren und zeigt auf, dass die multimodale Forschung in der Koloskopie weiterhin für weitere Explorationen offen ist. Um das kommende multimodale Zeitalter zu begrüßen, etablieren wir drei grundlegende Initiativen: einen groß angelegten multimodalen Instruktionsabstimmungsdatensatz ColonINST, ein koloskopie-entworfenes multimodales Sprachmodell ColonGPT und einen multimodalen Benchmark. Um die laufende Überwachung dieses sich schnell entwickelnden Feldes zu erleichtern, stellen wir eine öffentliche Website für die neuesten Updates zur Verfügung: https://github.com/ai4colonoscopy/IntelliScope.
English
Colonoscopy is currently one of the most sensitive screening methods for
colorectal cancer. This study investigates the frontiers of intelligent
colonoscopy techniques and their prospective implications for multimodal
medical applications. With this goal, we begin by assessing the current
data-centric and model-centric landscapes through four tasks for colonoscopic
scene perception, including classification, detection, segmentation, and
vision-language understanding. This assessment enables us to identify
domain-specific challenges and reveals that multimodal research in colonoscopy
remains open for further exploration. To embrace the coming multimodal era, we
establish three foundational initiatives: a large-scale multimodal instruction
tuning dataset ColonINST, a colonoscopy-designed multimodal language model
ColonGPT, and a multimodal benchmark. To facilitate ongoing monitoring of this
rapidly evolving field, we provide a public website for the latest updates:
https://github.com/ai4colonoscopy/IntelliScope.Summary
AI-Generated Summary