EchoPrime: 포괄적인 심초음파 해석을 위한 멀티 비디오 뷰 정보를 활용한 비전-언어 모델
EchoPrime: A Multi-Video View-Informed Vision-Language Model for Comprehensive Echocardiography Interpretation
October 13, 2024
저자: Milos Vukadinovic, Xiu Tang, Neal Yuan, Paul Cheng, Debiao Li, Susan Cheng, Bryan He, David Ouyang
cs.AI
초록
에코심초음파는 심장 영상 촬상 기법 중 가장 널리 사용되며, 심장 구조와 기능을 평가하기 위해 초음파 비디오 데이터를 캡처합니다. 인공지능(AI)을 에코심초음파에 적용하면 수동 작업을 간소화하고 재현성과 정밀도를 향상시킬 수 있습니다. 그러나 대부분의 에코심초음파 AI 모델은 단일 시점, 단일 작업 시스템으로, 전체 검사 중에 캡처된 여러 시점에서 보충 정보를 종합하지 않아 성능과 응용 범위가 제한됩니다. 이 문제를 해결하기 위해 우리는 EchoPrime을 소개합니다. EchoPrime은 1200만 개 이상의 비디오-보고서 쌍으로 훈련된 멀티뷰, 뷰 정보화, 비디오 기반 비전-언어 기반 모델입니다. EchoPrime은 대조 학습을 사용하여 모든 표준 시점에 대한 통합 임베딩 모델을 훈련하며, 드문 및 흔한 질병 및 진단의 표현을 포함한 포괄적인 에코심초음파 연구를 수행합니다. 그런 다음 EchoPrime은 뷰 분류 및 뷰 정보화 해부 주의 모델을 활용하여 에코심초음파 시점과 해부 구조 간의 관계를 정확하게 매핑하는 비디오별 해석을 가중화합니다. 검색 보강 해석을 통해 EchoPrime은 포괄적인 연구에서 모든 에코심초음파 비디오의 정보를 통합하고 종합적인 임상 에코심초음파 해석을 수행합니다. 두 개의 독립적인 의료 시스템 데이터셋에서 EchoPrime은 심장 형태와 기능의 23가지 다양한 벤치마크에서 최첨단 성능을 달성하며, 과거의 기존 기반 모델과 작업 특정 접근법의 성능을 능가합니다. 엄격한 임상 평가를 거친 후 EchoPrime은 의사들이 포괄적인 에코심초음파의 자동 예비 평가를 지원할 수 있습니다.
English
Echocardiography is the most widely used cardiac imaging modality, capturing
ultrasound video data to assess cardiac structure and function. Artificial
intelligence (AI) in echocardiography has the potential to streamline manual
tasks and improve reproducibility and precision. However, most echocardiography
AI models are single-view, single-task systems that do not synthesize
complementary information from multiple views captured during a full exam, and
thus lead to limited performance and scope of applications. To address this
problem, we introduce EchoPrime, a multi-view, view-informed, video-based
vision-language foundation model trained on over 12 million video-report pairs.
EchoPrime uses contrastive learning to train a unified embedding model for all
standard views in a comprehensive echocardiogram study with representation of
both rare and common diseases and diagnoses. EchoPrime then utilizes
view-classification and a view-informed anatomic attention model to weight
video-specific interpretations that accurately maps the relationship between
echocardiographic views and anatomical structures. With retrieval-augmented
interpretation, EchoPrime integrates information from all echocardiogram videos
in a comprehensive study and performs holistic comprehensive clinical
echocardiography interpretation. In datasets from two independent healthcare
systems, EchoPrime achieves state-of-the art performance on 23 diverse
benchmarks of cardiac form and function, surpassing the performance of both
task-specific approaches and prior foundation models. Following rigorous
clinical evaluation, EchoPrime can assist physicians in the automated
preliminary assessment of comprehensive echocardiography.Summary
AI-Generated Summary