Babel: Открытые многоязычные большие языковые модели, обслуживающие более 90% носителей языка в мире

Аннотация

Крупные языковые модели (LLM) произвели революцию в области обработки естественного языка (NLP), однако открытые многоязычные LLM остаются редкими, а существующие модели часто ограничены в охвате языков. Такие модели обычно отдают приоритет хорошо поддерживаемым языкам, в то время как широко распространённые, но недостаточно обеспеченные ресурсами языки часто остаются без внимания. Чтобы устранить этот дисбаланс, мы представляем Babel — открытую многоязычную LLM, которая охватывает 25 самых распространённых языков по числу носителей, поддерживает более 90% мирового населения и включает множество языков, игнорируемых другими открытыми многоязычными LLM. В отличие от традиционных подходов с продолжением предварительного обучения, Babel расширяет количество параметров с помощью техники расширения слоёв, что повышает её производительность. Мы представляем две версии: Babel-9B, разработанную для эффективного вывода и тонкой настройки, и Babel-83B, которая устанавливает новый стандарт для открытых многоязычных LLM. Обширные оценки на многоязычных задачах демонстрируют её превосходство по сравнению с открытыми LLM сопоставимого размера. Кроме того, используя открытые наборы данных для контролируемой тонкой настройки, Babel достигает выдающихся результатов: Babel-9B-Chat лидирует среди LLM размером 10 млрд параметров, а Babel-83B-Chat устанавливает новый стандарт для многоязычных задач, достигая уровня коммерческих моделей.

English

Large language models (LLMs) have revolutionized natural language processing (NLP), yet open-source multilingual LLMs remain scarce, with existing models often limited in language coverage. Such models typically prioritize well-resourced languages, while widely spoken but under-resourced languages are often overlooked. To address this disparity, we introduce Babel, an open multilingual LLM that covers the top 25 languages by number of speakers, supports over 90% of the global population, and includes many languages neglected by other open multilingual LLMs. Unlike traditional continue pretraining approaches, Babel expands its parameter count through a layer extension technique that elevates Babel's performance ceiling. We introduce two variants: Babel-9B, designed for efficient inference and fine-tuning, and Babel-83B, which sets a new standard for open multilingual LLMs. Extensive evaluations on multilingual tasks demonstrate its superior performance compared to open LLMs of comparable size. In addition, using open-source supervised fine-tuning datasets, Babel achieves remarkable performance, with Babel-9B-Chat leading among 10B-sized LLMs and Babel-83B-Chat setting a new standard for multilingual tasks, reaching the same level of commercial models.

Babel: Открытые многоязычные большие языковые модели, обслуживающие более 90% носителей языка в мире

Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

Аннотация

Summary

Support