Centurio: Sobre os Fatores que Influenciam a Capacidade Multilíngue de um Grande Modelo de Visão e Linguagem
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
January 9, 2025
Autores: Gregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Glavaš
cs.AI
Resumo
A maioria dos Modelos de Grande Escala de Visão-Linguagem (LVLMs, na sigla em inglês) até o momento são treinados predominantemente em dados em inglês, o que os faz ter dificuldade em entender entradas em idiomas não ingleses e falhar na geração de saída no idioma-alvo desejado. Esforços existentes para mitigar esses problemas adicionam dados de treinamento multilíngues, porém o fazem de maneira em grande parte ad hoc, sem insights sobre como diferentes misturas de treinamento influenciam de forma diferente os grupos de idiomas. Neste trabalho, apresentamos uma investigação abrangente sobre as estratégias de treinamento para LVLMs massivamente multilíngues. Primeiramente, conduzimos uma série de experimentos em múltiplos estágios abrangendo 13 tarefas de visão-linguagem e 43 idiomas, examinando sistematicamente: (1) o número de idiomas de treinamento que podem ser incluídos sem degradar o desempenho em inglês e (2) as distribuições ótimas de idiomas para pré-treinamento, bem como (3) dados de ajuste de instruções. Além disso, investigamos como melhorar a compreensão multilíngue de texto em imagem e introduzimos um novo benchmark para a tarefa. Surpreendentemente, nossa análise revela que é possível (i) incluir até 100 idiomas de treinamento simultaneamente (ii) com tão pouco quanto 25-50\% de dados não em inglês, para melhorar significativamente o desempenho multilíngue mantendo um forte desempenho em inglês. Descobrimos ainda que (iii) incluir dados de OCR não em inglês no pré-treinamento e ajuste de instruções é fundamental para melhorar a compreensão multilíngue de texto em imagem. Por fim, reunimos todas as nossas descobertas e treinamos o Centurio, um LVLM de 100 idiomas, oferecendo desempenho de ponta em uma avaliação que abrange 14 tarefas e 56 idiomas.
English
Most Large Vision-Language Models (LVLMs) to date are trained predominantly
on English data, which makes them struggle to understand non-English input and
fail to generate output in the desired target language. Existing efforts
mitigate these issues by adding multilingual training data, but do so in a
largely ad-hoc manner, lacking insight into how different training mixes tip
the scale for different groups of languages. In this work, we present a
comprehensive investigation into the training strategies for massively
multilingual LVLMs. First, we conduct a series of multi-stage experiments
spanning 13 downstream vision-language tasks and 43 languages, systematically
examining: (1) the number of training languages that can be included without
degrading English performance and (2) optimal language distributions of
pre-training as well as (3) instruction-tuning data. Further, we (4)
investigate how to improve multilingual text-in-image understanding, and
introduce a new benchmark for the task. Surprisingly, our analysis reveals that
one can (i) include as many as 100 training languages simultaneously (ii) with
as little as 25-50\% of non-English data, to greatly improve multilingual
performance while retaining strong English performance. We further find that
(iii) including non-English OCR data in pre-training and instruction-tuning is
paramount for improving multilingual text-in-image understanding. Finally, we
put all our findings together and train Centurio, a 100-language LVLM, offering
state-of-the-art performance in an evaluation covering 14 tasks and 56
languages.Summary
AI-Generated Summary