Centurio: Sui Driver della Capacità Multilingue di Modelli di Visione-Linguaggio di Grandi Dimensioni
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
January 9, 2025
Autori: Gregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Glavaš
cs.AI
Abstract
La maggior parte dei Grandi Modelli Visione-Linguaggio (LVLM) attualmente sono addestrati principalmente su dati in lingua inglese, il che li rende in difficoltà nel comprendere input non in inglese e nel generare output nella lingua di destinazione desiderata. Gli sforzi esistenti per mitigare questi problemi consistono nell'aggiungere dati di addestramento multilingue, ma lo fanno in modo largamente ad-hoc, mancando di approfondimenti su come diverse combinazioni di addestramento influenzino diversi gruppi di lingue. In questo lavoro, presentiamo un'indagine esaustiva sulle strategie di addestramento per LVLM massicciamente multilingue. Inizialmente, conduciamo una serie di esperimenti a più fasi che coprono 13 compiti visione-linguaggio e 43 lingue, esaminando sistematicamente: (1) il numero di lingue di addestramento che possono essere inclusi senza degradare le prestazioni in inglese e (2) le distribuzioni ottimali delle lingue per il pre-addestramento e (3) i dati di sintonizzazione delle istruzioni. Inoltre, (4) indaghiamo su come migliorare la comprensione multilingue testo-immagine e presentiamo un nuovo benchmark per il compito. Sorprendentemente, la nostra analisi rivela che si può (i) includere fino a 100 lingue di addestramento contemporaneamente (ii) con appena il 25-50\% di dati non in inglese, per migliorare notevolmente le prestazioni multilingue mantenendo allo stesso tempo forti prestazioni in inglese. Troviamo inoltre che (iii) includere dati OCR non in inglese nel pre-addestramento e nella sintonizzazione delle istruzioni è fondamentale per migliorare la comprensione multilingue testo-immagine. Infine, mettiamo insieme tutte le nostre scoperte e addestriamo Centurio, un LVLM a 100 lingue, offrendo prestazioni all'avanguardia in una valutazione che copre 14 compiti e 56 lingue.
English
Most Large Vision-Language Models (LVLMs) to date are trained predominantly
on English data, which makes them struggle to understand non-English input and
fail to generate output in the desired target language. Existing efforts
mitigate these issues by adding multilingual training data, but do so in a
largely ad-hoc manner, lacking insight into how different training mixes tip
the scale for different groups of languages. In this work, we present a
comprehensive investigation into the training strategies for massively
multilingual LVLMs. First, we conduct a series of multi-stage experiments
spanning 13 downstream vision-language tasks and 43 languages, systematically
examining: (1) the number of training languages that can be included without
degrading English performance and (2) optimal language distributions of
pre-training as well as (3) instruction-tuning data. Further, we (4)
investigate how to improve multilingual text-in-image understanding, and
introduce a new benchmark for the task. Surprisingly, our analysis reveals that
one can (i) include as many as 100 training languages simultaneously (ii) with
as little as 25-50\% of non-English data, to greatly improve multilingual
performance while retaining strong English performance. We further find that
(iii) including non-English OCR data in pre-training and instruction-tuning is
paramount for improving multilingual text-in-image understanding. Finally, we
put all our findings together and train Centurio, a 100-language LVLM, offering
state-of-the-art performance in an evaluation covering 14 tasks and 56
languages.Summary
AI-Generated Summary