ChatPaper.aiChatPaper

시각 언어 모델을 위한 척도 확장된 1000억 데이터에 대한 사전 훈련

Scaling Pre-training to One Hundred Billion Data for Vision Language Models

February 11, 2025
저자: Xiao Wang, Ibrahim Alabdulmohsin, Daniel Salz, Zhe Li, Keran Rong, Xiaohua Zhai
cs.AI

초록

우리는 전례 없는 규모인 1000억 예제에 대해 비전-언어 모델 사전 훈련의 잠재력을 경험적으로 조사합니다. COCO 캡션과 같은 많은 일반적인 서양 중심의 분류 및 검색 벤치마크에서 이 규모에서 모델 성능이 포화되는 경향을 발견했습니다. 그러나 문화 다양성 작업은 장발 개념을 다루는 웹 데이터의 커버리지 덕분에 1000억 규모에서 더 상당한 이득을 얻습니다. 또한, 저자원 언어에서도 모델의 다국어성을 분석하고 이익을 입증했습니다. 또한, CLIP와 같은 품질 필터 사용과 같이 사전 훈련 데이터셋의 크기를 줄이면 성능을 향상시키는 데 일반적으로 사용되지만, 이는 대규모 데이터셋에서도 표현되는 문화 다양성을 부당하게 줄일 수 있음을 관찰했습니다. 우리의 결과는 전통적인 벤치마크가 잡음이 많은 웹 데이터를 1000억 예제로 확장하는 것에서 큰 이점을 얻지 못할 수 있지만, 이러한 데이터 규모가 진정으로 포괄적인 멀티모달 시스템을 구축하는 데 중요하다는 점을 강조합니다.
English
We provide an empirical investigation of the potential of pre-training vision-language models on an unprecedented scale: 100 billion examples. We find that model performance tends to saturate at this scale on many common Western-centric classification and retrieval benchmarks, such as COCO Captions. Nevertheless, tasks of cultural diversity achieve more substantial gains from the 100-billion scale web data, thanks to its coverage of long-tail concepts. Furthermore, we analyze the model's multilinguality and show gains in low-resource languages as well. In addition, we observe that reducing the size of the pretraining dataset via quality filters like using CLIP, typically used to enhance performance, may inadvertently reduce the cultural diversity represented even in large-scale datasets. Our results highlight that while traditional benchmarks may not benefit significantly from scaling noisy, raw web data to 100 billion examples, this data scale is vital for building truly inclusive multimodal systems.

Summary

AI-Generated Summary

PDF274February 12, 2025