Marco-LLM: Collegamento tra lingue tramite un'ampia formazione multilingue per il potenziamento cross-linguistico

Abstract

I Large Language Models (LLM) hanno ottenuto progressi notevoli negli ultimi anni; tuttavia, la loro eccellente performance è ancora in gran parte limitata alle principali lingue del mondo, principalmente l'inglese. Molti LLM continuano ad affrontare sfide con compiti multilingue, specialmente quando si tratta di lingue a risorse limitate. Per affrontare questo problema, abbiamo introdotto Marco-LLM: Addestramento massivo multilingue per il potenziamento cross-linguistico di LLM. Abbiamo raccolto una quantità sostanziale di dati multilingue per diverse lingue a risorse limitate e condotto un ampio pre-addestramento continuo utilizzando i modelli Qwen2. Questo sforzo ha portato alla creazione di un LLM multilingue chiamato Marco-LLM. Attraverso valutazioni esaustive su vari benchmark multilingue, tra cui MMMLU, AGIEval, Belebele, Flores-200, XCOPA e molti altri, Marco-LLM ha dimostrato miglioramenti sostanziali rispetto agli LLM all'avanguardia. Inoltre, Marco-LLM ha ottenuto miglioramenti significativi nei compiti di traduzione automatica da qualsiasi lingua a qualsiasi lingua, dimostrando l'efficacia del nostro LLM multilingue. Marco-LLM è un LLM multilingue pionieristico progettato non solo per ottenere risultati eccezionali nei compiti multilingue, comprese le lingue a risorse limitate, ma anche per mantenere una forte performance in inglese e nelle altre principali lingue, riducendo il divario di performance tra le capacità linguistiche ad alta e bassa risorsa. Attraverso il collegamento tra le lingue, questo sforzo dimostra il nostro impegno nel garantire che i LLM funzionino correttamente attraverso diverse lingue.

English

Large Language Models (LLMs) have achieved remarkable progress in recent years; however, their excellent performance is still largely limited to major world languages, primarily English. Many LLMs continue to face challenges with multilingual tasks, especially when it comes to low-resource languages. To address this issue, we introduced Marco-LLM: Massive multilingual training for cross-lingual enhancement LLM. We have collected a substantial amount of multilingual data for several low-resource languages and conducted extensive continual pre-training using the Qwen2 models. This effort has resulted in a multilingual LLM named Marco-LLM. Through comprehensive evaluations on various multilingual benchmarks, including MMMLU, AGIEval, Belebele, Flores-200, XCOPA and many others, Marco-LLM has demonstrated substantial improvements over state-of-the-art LLMs. Furthermore, Marco-LLM achieved substantial enhancements in any-to-any machine translation tasks, showing the effectiveness of our multilingual LLM. Marco-LLM is a pioneering multilingual LLM designed to not only perform exceptionally well in multilingual tasks, including low-resource languages, but also maintain strong performance in English and other major languages, closing the performance gap between high- and low-resource language capabilities. By bridging languages, this effort demonstrates our dedication to ensuring LLMs work accurately across various languages.

Marco-LLM: Collegamento tra lingue tramite un'ampia formazione multilingue per il potenziamento cross-linguistico

Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement

Abstract

Support