센투리오: 대형 비전-언어 모델의 다국어 능력 요인
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
January 9, 2025
저자: Gregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Glavaš
cs.AI
초록
지금까지 대부분의 대형 Vision-Language 모델(LVLMs)은 주로 영어 데이터로 훈련되어 왔으며, 이는 그들이 비영어 입력을 이해하는 데 어려움을 겪고 원하는 목표 언어로 출력물을 생성하는 데 실패하게 만듭니다. 기존의 노력은 다국어 훈련 데이터를 추가함으로써 이러한 문제를 완화하지만, 이를 대부분 ad-hoc 방식으로 수행하여 서로 다른 언어 그룹에 대한 훈련 혼합이 어떻게 다른 결과를 가져오는지에 대한 통찰력이 부족합니다. 본 연구에서는 대규모 다국어 LVLMs의 훈련 전략에 대해 철저한 조사를 제시합니다. 먼저, 13가지 하위 비전-언어 작업과 43개 언어에 걸쳐 다단계 실험을 수행하여 (1) 영어 성능을 저하시키지 않고 포함할 수 있는 훈련 언어의 수, (2) 사전 훈련 및 (3) 지시 조정 데이터의 최적 언어 분포를 체계적으로 조사합니다. 더불어 (4) 다국어 텍스트-이미지 이해를 개선하는 방법을 조사하고 이를 위한 새로운 벤치마크를 소개합니다. 분석 결과, 최대 100개의 훈련 언어를 동시에 포함하고, 비영어 데이터의 25-50%만으로도 다국어 성능을 크게 향상시킬 수 있으면서 강력한 영어 성능을 유지할 수 있다는 점이 놀라운 것으로 밝혀졌습니다. 또한 사전 훈련 및 지시 조정에 비영어 OCR 데이터를 포함하는 것이 다국어 텍스트-이미지 이해를 개선하는 데 중요하다는 것을 발견했습니다. 마지막으로, 우리는 이러한 발견을 종합하여 14가지 작업과 56개 언어를 포함한 평가에서 최첨단 성능을 제공하는 100개 언어 LVLM인 Centurio를 훈련시켰습니다.
English
Most Large Vision-Language Models (LVLMs) to date are trained predominantly
on English data, which makes them struggle to understand non-English input and
fail to generate output in the desired target language. Existing efforts
mitigate these issues by adding multilingual training data, but do so in a
largely ad-hoc manner, lacking insight into how different training mixes tip
the scale for different groups of languages. In this work, we present a
comprehensive investigation into the training strategies for massively
multilingual LVLMs. First, we conduct a series of multi-stage experiments
spanning 13 downstream vision-language tasks and 43 languages, systematically
examining: (1) the number of training languages that can be included without
degrading English performance and (2) optimal language distributions of
pre-training as well as (3) instruction-tuning data. Further, we (4)
investigate how to improve multilingual text-in-image understanding, and
introduce a new benchmark for the task. Surprisingly, our analysis reveals that
one can (i) include as many as 100 training languages simultaneously (ii) with
as little as 25-50\% of non-English data, to greatly improve multilingual
performance while retaining strong English performance. We further find that
(iii) including non-English OCR data in pre-training and instruction-tuning is
paramount for improving multilingual text-in-image understanding. Finally, we
put all our findings together and train Centurio, a 100-language LVLM, offering
state-of-the-art performance in an evaluation covering 14 tasks and 56
languages.Summary
AI-Generated Summary