Centurio: Sui Driver della Capacità Multilingue di Modelli di Visione-Linguaggio di Grandi Dimensioni

Abstract

La maggior parte dei Grandi Modelli Visione-Linguaggio (LVLM) attualmente sono addestrati principalmente su dati in lingua inglese, il che li rende in difficoltà nel comprendere input non in inglese e nel generare output nella lingua di destinazione desiderata. Gli sforzi esistenti per mitigare questi problemi consistono nell'aggiungere dati di addestramento multilingue, ma lo fanno in modo largamente ad-hoc, mancando di approfondimenti su come diverse combinazioni di addestramento influenzino diversi gruppi di lingue. In questo lavoro, presentiamo un'indagine esaustiva sulle strategie di addestramento per LVLM massicciamente multilingue. Inizialmente, conduciamo una serie di esperimenti a più fasi che coprono 13 compiti visione-linguaggio e 43 lingue, esaminando sistematicamente: (1) il numero di lingue di addestramento che possono essere inclusi senza degradare le prestazioni in inglese e (2) le distribuzioni ottimali delle lingue per il pre-addestramento e (3) i dati di sintonizzazione delle istruzioni. Inoltre, (4) indaghiamo su come migliorare la comprensione multilingue testo-immagine e presentiamo un nuovo benchmark per il compito. Sorprendentemente, la nostra analisi rivela che si può (i) includere fino a 100 lingue di addestramento contemporaneamente (ii) con appena il 25-50\% di dati non in inglese, per migliorare notevolmente le prestazioni multilingue mantenendo allo stesso tempo forti prestazioni in inglese. Troviamo inoltre che (iii) includere dati OCR non in inglese nel pre-addestramento e nella sintonizzazione delle istruzioni è fondamentale per migliorare la comprensione multilingue testo-immagine. Infine, mettiamo insieme tutte le nostre scoperte e addestriamo Centurio, un LVLM a 100 lingue, offrendo prestazioni all'avanguardia in una valutazione che copre 14 compiti e 56 lingue.

English

Most Large Vision-Language Models (LVLMs) to date are trained predominantly on English data, which makes them struggle to understand non-English input and fail to generate output in the desired target language. Existing efforts mitigate these issues by adding multilingual training data, but do so in a largely ad-hoc manner, lacking insight into how different training mixes tip the scale for different groups of languages. In this work, we present a comprehensive investigation into the training strategies for massively multilingual LVLMs. First, we conduct a series of multi-stage experiments spanning 13 downstream vision-language tasks and 43 languages, systematically examining: (1) the number of training languages that can be included without degrading English performance and (2) optimal language distributions of pre-training as well as (3) instruction-tuning data. Further, we (4) investigate how to improve multilingual text-in-image understanding, and introduce a new benchmark for the task. Surprisingly, our analysis reveals that one can (i) include as many as 100 training languages simultaneously (ii) with as little as 25-50\% of non-English data, to greatly improve multilingual performance while retaining strong English performance. We further find that (iii) including non-English OCR data in pre-training and instruction-tuning is paramount for improving multilingual text-in-image understanding. Finally, we put all our findings together and train Centurio, a 100-language LVLM, offering state-of-the-art performance in an evaluation covering 14 tasks and 56 languages.

Centurio: Sui Driver della Capacità Multilingue di Modelli di Visione-Linguaggio di Grandi Dimensioni

Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model

Abstract

Support