RealSyn: 효과적이고 확장 가능한 멀티모달 인터리브 문서 변환 패러다임
RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm
February 18, 2025
저자: Tiancheng Gu, Kaicheng Yang, Chaoyi Zhang, Yin Xie, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng
cs.AI
초록
광범위한 이미지-텍스트 쌍에 대한 사전 학습 후, Contrastive Language-Image Pre-training (CLIP)은 다양한 벤치마크에서 유망한 성능을 보여줍니다. 그러나 멀티모달 인터리브 문서와 같은 대량의 비페어링 데이터는 여전히 시각-언어 표현 학습에 충분히 활용되지 않고 있습니다. 이러한 비페어링 문서를 완전히 활용하기 위해, 우리는 먼저 고품질 이미지와 텍스트를 추출하기 위한 Real-World Data Extraction 파이프라인을 구축합니다. 그런 다음, 각 이미지를 여러 의미적으로 관련된 현실적인 텍스트와 효율적으로 연결하기 위해 계층적 검색 방법을 설계합니다. 더 나아가 세밀한 시각 정보를 강화하기 위해, 합성 텍스트 생성을 위한 이미지 의미 증강 생성 모듈을 제안합니다. 또한, 데이터셋의 다양성을 개선하고 긴 꼬리 개념을 더 잘 학습할 수 있도록 의미 균형 샘플링 전략을 사용합니다. 이러한 혁신을 바탕으로, 우리는 현실적이고 합성된 텍스트를 결합한 RealSyn 데이터셋을 15M, 30M, 100M 세 가지 규모로 구축합니다. 광범위한 실험을 통해 RealSyn이 시각-언어 표현 학습을 효과적으로 발전시키고 강력한 확장성을 보여준다는 것을 입증합니다. RealSyn으로 사전 학습된 모델은 여러 다운스트림 작업에서 최첨단 성능을 달성합니다. 향후 연구를 촉진하기 위해, RealSyn 데이터셋과 사전 학습된 모델 가중치는 https://github.com/deepglint/RealSyn에서 공개되었습니다.
English
After pre-training on extensive image-text pairs, Contrastive Language-Image
Pre-training (CLIP) demonstrates promising performance on a wide variety of
benchmarks. However, a substantial volume of non-paired data, such as
multimodal interleaved documents, remains underutilized for vision-language
representation learning. To fully leverage these unpaired documents, we
initially establish a Real-World Data Extraction pipeline to extract
high-quality images and texts. Then we design a hierarchical retrieval method
to efficiently associate each image with multiple semantically relevant
realistic texts. To further enhance fine-grained visual information, we propose
an image semantic augmented generation module for synthetic text production.
Furthermore, we employ a semantic balance sampling strategy to improve dataset
diversity, enabling better learning of long-tail concepts. Based on these
innovations, we construct RealSyn, a dataset combining realistic and synthetic
texts, available in three scales: 15M, 30M, and 100M. Extensive experiments
demonstrate that RealSyn effectively advances vision-language representation
learning and exhibits strong scalability. Models pre-trained on RealSyn achieve
state-of-the-art performance on multiple downstream tasks. To facilitate future
research, the RealSyn dataset and pre-trained model weights are released at
https://github.com/deepglint/RealSyn.Summary
AI-Generated Summary