어떤 양식으로도 질문하라: 다중 양식 검색 증강 생성에 대한 종합적 조사
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation
February 12, 2025
저자: Mohammad Mahdi Abootorabi, Amirhosein Zobeiri, Mahdi Dehghani, Mohammadali Mohammadkhani, Bardia Mohammadi, Omid Ghahroodi, Mahdieh Soleymani Baghshah, Ehsaneddin Asgari
cs.AI
초록
대형 언어 모델(LLMs)은 정적인 학습 데이터에 의존하기 때문에 환각(hallucination)과 구식 지식 문제에 직면해 있습니다. 검색 증강 생성(Retrieval-Augmented Generation, RAG)은 외부의 동적 정보를 통합하여 사실적이고 최신의 근거를 강화함으로써 이러한 문제를 완화합니다. 최근 다중모달 학습의 발전으로 텍스트, 이미지, 오디오, 비디오와 같은 다양한 모달리티를 통합하여 생성된 출력을 향상시키는 다중모달 RAG(Multimodal RAG)가 개발되었습니다. 그러나 크로스모달 정렬과 추론은 다중모달 RAG에 고유한 도전 과제를 제시하며, 이는 기존의 단일모달 RAG와 구별됩니다. 본 조사는 데이터셋, 메트릭, 벤치마크, 평가, 방법론 및 검색, 융합, 증강, 생성 분야의 혁신을 포괄적으로 분석한 다중모달 RAG 시스템에 대한 구조적이고 종합적인 분석을 제공합니다. 우리는 훈련 전략, 견고성 강화, 손실 함수를 정밀하게 검토하면서 다양한 다중모달 RAG 시나리오를 탐구합니다. 또한, 이 진화하는 분야의 발전을 지원하기 위해 열린 도전 과제와 미래 연구 방향에 대해 논의합니다. 본 조사는 다중모달 동적 외부 지식 기반을 효과적으로 활용할 수 있는 더 능력 있고 신뢰할 수 있는 AI 시스템 개발의 기반을 마련합니다. 관련 자료는 https://github.com/llm-lab-org/Multimodal-RAG-Survey에서 확인할 수 있습니다.
English
Large Language Models (LLMs) struggle with hallucinations and outdated
knowledge due to their reliance on static training data. Retrieval-Augmented
Generation (RAG) mitigates these issues by integrating external dynamic
information enhancing factual and updated grounding. Recent advances in
multimodal learning have led to the development of Multimodal RAG,
incorporating multiple modalities such as text, images, audio, and video to
enhance the generated outputs. However, cross-modal alignment and reasoning
introduce unique challenges to Multimodal RAG, distinguishing it from
traditional unimodal RAG. This survey offers a structured and comprehensive
analysis of Multimodal RAG systems, covering datasets, metrics, benchmarks,
evaluation, methodologies, and innovations in retrieval, fusion, augmentation,
and generation. We precisely review training strategies, robustness
enhancements, and loss functions, while also exploring the diverse Multimodal
RAG scenarios. Furthermore, we discuss open challenges and future research
directions to support advancements in this evolving field. This survey lays the
foundation for developing more capable and reliable AI systems that effectively
leverage multimodal dynamic external knowledge bases. Resources are available
at https://github.com/llm-lab-org/Multimodal-RAG-Survey.Summary
AI-Generated Summary