Marco-LLM: Collegamento tra lingue tramite un'ampia formazione multilingue per il potenziamento cross-linguistico
Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement
December 5, 2024
Autori: Lingfeng Ming, Bo Zeng, Chenyang Lyu, Tianqi Shi, Yu Zhao, Xue Yang, Yefeng Liu, Yiyu Wang, Linlong Xu, Yangyang Liu, Xiaohu Zhao, Hao Wang, Heng Liu, Hao Zhou, Huifeng Yin, Zifu Shang, Haijun Li, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Abstract
I Large Language Models (LLM) hanno ottenuto progressi notevoli negli ultimi anni; tuttavia, la loro eccellente performance è ancora in gran parte limitata alle principali lingue del mondo, principalmente l'inglese. Molti LLM continuano ad affrontare sfide con compiti multilingue, specialmente quando si tratta di lingue a risorse limitate. Per affrontare questo problema, abbiamo introdotto Marco-LLM: Addestramento massivo multilingue per il potenziamento cross-linguistico di LLM. Abbiamo raccolto una quantità sostanziale di dati multilingue per diverse lingue a risorse limitate e condotto un ampio pre-addestramento continuo utilizzando i modelli Qwen2. Questo sforzo ha portato alla creazione di un LLM multilingue chiamato Marco-LLM. Attraverso valutazioni esaustive su vari benchmark multilingue, tra cui MMMLU, AGIEval, Belebele, Flores-200, XCOPA e molti altri, Marco-LLM ha dimostrato miglioramenti sostanziali rispetto agli LLM all'avanguardia. Inoltre, Marco-LLM ha ottenuto miglioramenti significativi nei compiti di traduzione automatica da qualsiasi lingua a qualsiasi lingua, dimostrando l'efficacia del nostro LLM multilingue. Marco-LLM è un LLM multilingue pionieristico progettato non solo per ottenere risultati eccezionali nei compiti multilingue, comprese le lingue a risorse limitate, ma anche per mantenere una forte performance in inglese e nelle altre principali lingue, riducendo il divario di performance tra le capacità linguistiche ad alta e bassa risorsa. Attraverso il collegamento tra le lingue, questo sforzo dimostra il nostro impegno nel garantire che i LLM funzionino correttamente attraverso diverse lingue.
English
Large Language Models (LLMs) have achieved remarkable progress in recent
years; however, their excellent performance is still largely limited to major
world languages, primarily English. Many LLMs continue to face challenges with
multilingual tasks, especially when it comes to low-resource languages. To
address this issue, we introduced Marco-LLM: Massive multilingual training for
cross-lingual enhancement LLM. We have collected a substantial amount of
multilingual data for several low-resource languages and conducted extensive
continual pre-training using the Qwen2 models. This effort has resulted in a
multilingual LLM named Marco-LLM. Through comprehensive evaluations on various
multilingual benchmarks, including MMMLU, AGIEval, Belebele, Flores-200, XCOPA
and many others, Marco-LLM has demonstrated substantial improvements over
state-of-the-art LLMs. Furthermore, Marco-LLM achieved substantial enhancements
in any-to-any machine translation tasks, showing the effectiveness of our
multilingual LLM. Marco-LLM is a pioneering multilingual LLM designed to not
only perform exceptionally well in multilingual tasks, including low-resource
languages, but also maintain strong performance in English and other major
languages, closing the performance gap between high- and low-resource language
capabilities. By bridging languages, this effort demonstrates our dedication to
ensuring LLMs work accurately across various languages.Summary
AI-Generated Summary