Babel: Открытые многоязычные большие языковые модели, обслуживающие более 90% носителей языка в мире
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers
March 2, 2025
Авторы: Yiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang
cs.AI
Аннотация
Крупные языковые модели (LLM) произвели революцию в области обработки естественного языка (NLP), однако открытые многоязычные LLM остаются редкими, а существующие модели часто ограничены в охвате языков. Такие модели обычно отдают приоритет хорошо поддерживаемым языкам, в то время как широко распространённые, но недостаточно обеспеченные ресурсами языки часто остаются без внимания. Чтобы устранить этот дисбаланс, мы представляем Babel — открытую многоязычную LLM, которая охватывает 25 самых распространённых языков по числу носителей, поддерживает более 90% мирового населения и включает множество языков, игнорируемых другими открытыми многоязычными LLM. В отличие от традиционных подходов с продолжением предварительного обучения, Babel расширяет количество параметров с помощью техники расширения слоёв, что повышает её производительность. Мы представляем две версии: Babel-9B, разработанную для эффективного вывода и тонкой настройки, и Babel-83B, которая устанавливает новый стандарт для открытых многоязычных LLM. Обширные оценки на многоязычных задачах демонстрируют её превосходство по сравнению с открытыми LLM сопоставимого размера. Кроме того, используя открытые наборы данных для контролируемой тонкой настройки, Babel достигает выдающихся результатов: Babel-9B-Chat лидирует среди LLM размером 10 млрд параметров, а Babel-83B-Chat устанавливает новый стандарт для многоязычных задач, достигая уровня коммерческих моделей.
English
Large language models (LLMs) have revolutionized natural language processing
(NLP), yet open-source multilingual LLMs remain scarce, with existing models
often limited in language coverage. Such models typically prioritize
well-resourced languages, while widely spoken but under-resourced languages are
often overlooked. To address this disparity, we introduce Babel, an
open multilingual LLM that covers the top 25 languages by number of speakers,
supports over 90% of the global population, and includes many languages
neglected by other open multilingual LLMs. Unlike traditional continue
pretraining approaches, Babel expands its parameter count through a layer
extension technique that elevates Babel's performance ceiling. We introduce two
variants: Babel-9B, designed for efficient inference and
fine-tuning, and Babel-83B, which sets a new standard for open
multilingual LLMs. Extensive evaluations on multilingual tasks demonstrate its
superior performance compared to open LLMs of comparable size. In addition,
using open-source supervised fine-tuning datasets, Babel achieves remarkable
performance, with Babel-9B-Chat leading among 10B-sized LLMs and Babel-83B-Chat
setting a new standard for multilingual tasks, reaching the same level of
commercial models.Summary
AI-Generated Summary