ChatPaper.aiChatPaper

mmE5: 고품질 합성 데이터를 통해 다중 모달 다국어 임베딩 개선

mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data

February 12, 2025
저자: Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou
cs.AI

초록

다중 모달 임베딩 모델은 텍스트와 이미지와 같은 다른 모달에서 데이터를 통합된 표현 공간으로 매핑하는 능력으로 인해 상당한 관심을 받았습니다. 그러나 한정된 레이블이 지정된 다중 모달 데이터는 종종 임베딩 성능을 저하시킵니다. 최근에는 데이터 합성을 활용하여 이 문제를 해결하는 방법이 제시되었지만, 합성 데이터의 품질은 여전히 중요한 병목 현상입니다. 본 연구에서는 고품질의 합성 다중 모달 데이터를 위한 세 가지 기준을 도출합니다. 첫째, 넓은 범위는 생성된 데이터가 다양한 작업과 모달리티를 포함하여 다양한 하류 시나리오에 적용될 수 있도록 보장합니다. 둘째, 견고한 교모단 조정은 다른 모달리티가 의미론적으로 일관되도록 합니다. 셋째, 높은 충실도는 합성 데이터가 신뢰성을 향상시키기 위해 현실적인 세부 사항을 유지하도록 합니다. 이러한 원칙에 따라 우리는 다음과 같은 데이터셋을 합성합니다: (1) 다양한 작업, 모달리티 조합 및 언어를 포괄하는 데이터, (2) 다중 모달 대형 언어 모델의 단일 패스 내에서 심층적인 사고 과정을 통해 생성된 데이터, (3) 정확하고 관련된 텍스트로 실제 세계 이미지를 통합하여 충실성을 자가평가 및 개선을 통해 보장합니다. 이러한 고품질의 합성 및 레이블이 지정된 데이터셋을 활용하여 우리는 다중 모달 다국어 E5 모델 mmE5를 훈련시킵니다. 광범위한 실험 결과 mmE5가 MMEB 벤치마크에서 최첨단 성능을 달성하고 XTD 벤치마크에서 우수한 다국어 성능을 보여준다는 것을 입증합니다. 우리의 코드, 데이터셋 및 모델은 https://github.com/haon-chen/mmE5에서 공개되었습니다.
English
Multimodal embedding models have gained significant attention for their ability to map data from different modalities, such as text and images, into a unified representation space. However, the limited labeled multimodal data often hinders embedding performance. Recent approaches have leveraged data synthesis to address this problem, yet the quality of synthetic data remains a critical bottleneck. In this work, we identify three criteria for high-quality synthetic multimodal data. First, broad scope ensures that the generated data covers diverse tasks and modalities, making it applicable to various downstream scenarios. Second, robust cross-modal alignment makes different modalities semantically consistent. Third, high fidelity ensures that the synthetic data maintains realistic details to enhance its reliability. Guided by these principles, we synthesize datasets that: (1) cover a wide range of tasks, modality combinations, and languages, (2) are generated via a deep thinking process within a single pass of a multimodal large language model, and (3) incorporate real-world images with accurate and relevant texts, ensuring fidelity through self-evaluation and refinement. Leveraging these high-quality synthetic and labeled datasets, we train a multimodal multilingual E5 model mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art performance on the MMEB Benchmark and superior multilingual performance on the XTD benchmark. Our codes, datasets and models are released in https://github.com/haon-chen/mmE5.

Summary

AI-Generated Summary

PDF132February 14, 2025