EchoPrime: 포괄적인 심초음파 해석을 위한 멀티 비디오 뷰 정보를 활용한 비전-언어 모델

EchoPrime: A Multi-Video View-Informed Vision-Language Model for Comprehensive Echocardiography Interpretation

October 13, 2024
저자: Milos Vukadinovic, Xiu Tang, Neal Yuan, Paul Cheng, Debiao Li, Susan Cheng, Bryan He, David Ouyang
cs.AI

초록

에코심초음파는 심장 영상 촬상 기법 중 가장 널리 사용되며, 심장 구조와 기능을 평가하기 위해 초음파 비디오 데이터를 캡처합니다. 인공지능(AI)을 에코심초음파에 적용하면 수동 작업을 간소화하고 재현성과 정밀도를 향상시킬 수 있습니다. 그러나 대부분의 에코심초음파 AI 모델은 단일 시점, 단일 작업 시스템으로, 전체 검사 중에 캡처된 여러 시점에서 보충 정보를 종합하지 않아 성능과 응용 범위가 제한됩니다. 이 문제를 해결하기 위해 우리는 EchoPrime을 소개합니다. EchoPrime은 1200만 개 이상의 비디오-보고서 쌍으로 훈련된 멀티뷰, 뷰 정보화, 비디오 기반 비전-언어 기반 모델입니다. EchoPrime은 대조 학습을 사용하여 모든 표준 시점에 대한 통합 임베딩 모델을 훈련하며, 드문 및 흔한 질병 및 진단의 표현을 포함한 포괄적인 에코심초음파 연구를 수행합니다. 그런 다음 EchoPrime은 뷰 분류 및 뷰 정보화 해부 주의 모델을 활용하여 에코심초음파 시점과 해부 구조 간의 관계를 정확하게 매핑하는 비디오별 해석을 가중화합니다. 검색 보강 해석을 통해 EchoPrime은 포괄적인 연구에서 모든 에코심초음파 비디오의 정보를 통합하고 종합적인 임상 에코심초음파 해석을 수행합니다. 두 개의 독립적인 의료 시스템 데이터셋에서 EchoPrime은 심장 형태와 기능의 23가지 다양한 벤치마크에서 최첨단 성능을 달성하며, 과거의 기존 기반 모델과 작업 특정 접근법의 성능을 능가합니다. 엄격한 임상 평가를 거친 후 EchoPrime은 의사들이 포괄적인 에코심초음파의 자동 예비 평가를 지원할 수 있습니다.
English
Echocardiography is the most widely used cardiac imaging modality, capturing ultrasound video data to assess cardiac structure and function. Artificial intelligence (AI) in echocardiography has the potential to streamline manual tasks and improve reproducibility and precision. However, most echocardiography AI models are single-view, single-task systems that do not synthesize complementary information from multiple views captured during a full exam, and thus lead to limited performance and scope of applications. To address this problem, we introduce EchoPrime, a multi-view, view-informed, video-based vision-language foundation model trained on over 12 million video-report pairs. EchoPrime uses contrastive learning to train a unified embedding model for all standard views in a comprehensive echocardiogram study with representation of both rare and common diseases and diagnoses. EchoPrime then utilizes view-classification and a view-informed anatomic attention model to weight video-specific interpretations that accurately maps the relationship between echocardiographic views and anatomical structures. With retrieval-augmented interpretation, EchoPrime integrates information from all echocardiogram videos in a comprehensive study and performs holistic comprehensive clinical echocardiography interpretation. In datasets from two independent healthcare systems, EchoPrime achieves state-of-the art performance on 23 diverse benchmarks of cardiac form and function, surpassing the performance of both task-specific approaches and prior foundation models. Following rigorous clinical evaluation, EchoPrime can assist physicians in the automated preliminary assessment of comprehensive echocardiography.

Summary

AI-Generated Summary

PDF114November 16, 2024