R1-T1: Полное стимулирование способности к переводу в больших языковых моделях через обучение рассуждениям
R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning
February 27, 2025
Авторы: Minggui He, Yilun Liu, Shimin Tao, Yuanchang Luo, Hongyong Zeng, Chang Su, Li Zhang, Hongxia Ma, Daimeng Wei, Weibin Meng, Hao Yang, Boxing Chen, Osamu Yoshie
cs.AI
Аннотация
Notably,
R1-T1 outperforms the state-of-the-art (SOTA) by 0.8 BLEU on average across
Flores-101, and achieves 1.0 BLEU improvement on the 15 unseen languages,
demonstrating its effectiveness in general MT reasoning.
Несмотря на недавние прорывы в области крупных языковых моделей (LLM) с улучшенными способностями к рассуждению, такими как DeepSeek-R1, внедрение рассуждений во время вывода в машинный перевод (MT), где человеческие переводчики естественным образом используют структурированные, многоуровневые цепочки рассуждений (CoT), остается недостаточно изученным. Существующие методы либо разрабатывают фиксированные CoT, адаптированные для конкретных подзадач MT (например, перевод литературы), либо полагаются на синтез CoT, не согласованных с человеческими, и контролируемую тонкую настройку (SFT), склонную к катастрофическому забыванию, что ограничивает их применимость в различных сценариях перевода. В данной статье представлен R1-Translator (R1-T1), новая структура для достижения рассуждений во время вывода для общего MT с использованием обучения с подкреплением (RL) с человеко-ориентированными CoT, включающими шесть распространенных шаблонов. Наш подход предлагает три инновации: (1) расширение перевода на основе рассуждений за пределы подзадач MT на шесть языков и разнообразные задачи (например, адаптация в юридической/медицинской областях, разрешение идиом); (2) формализация шести экспертно разработанных шаблонов CoT, которые отражают гибридные человеческие стратегии, такие как контекстно-зависимый перефраз и обратный перевод; и (3) обеспечение саморазвивающегося обнаружения CoT и адаптации, устойчивой к забыванию, с помощью RL с наградами, ограниченными KL-дивергенцией. Результаты экспериментов показывают устойчивое улучшение качества перевода на 21 языке и 80 направлениях перевода в тестовом наборе Flores-101, особенно на 15 языках, не представленных в обучении, с сохранением общих многоязычных способностей по сравнению с обычной SFT. Примечательно, что R1-T1 превосходит современные достижения (SOTA) в среднем на 0,8 BLEU по всему набору Flores-101 и достигает улучшения на 1,0 BLEU на 15 непредставленных языках, демонстрируя свою эффективность в общем MT с рассуждениями.
English
Despite recent breakthroughs in reasoning-enhanced large language models
(LLMs) like DeepSeek-R1, incorporating inference-time reasoning into machine
translation (MT), where human translators naturally employ structured,
multi-layered reasoning chain-of-thoughts (CoTs), is yet underexplored.
Existing methods either design a fixed CoT tailored for a specific MT sub-task
(e.g., literature translation), or rely on synthesizing CoTs unaligned with
humans and supervised fine-tuning (SFT) prone to catastrophic forgetting,
limiting their adaptability to diverse translation scenarios. This paper
introduces R1-Translator (R1-T1), a novel framework to achieve inference-time
reasoning for general MT via reinforcement learning (RL) with human-aligned
CoTs comprising six common patterns. Our approach pioneers three innovations:
(1) extending reasoning-based translation beyond MT sub-tasks to six languages
and diverse tasks (e.g., legal/medical domain adaptation, idiom resolution);
(2) formalizing six expert-curated CoT templates that mirror hybrid human
strategies like context-aware paraphrasing and back translation; and (3)
enabling self-evolving CoT discovery and anti-forgetting adaptation through RL
with KL-constrained rewards. Experimental results indicate a steady translation
performance improvement in 21 languages and 80 translation directions on
Flores-101 test set, especially on the 15 languages unseen from training, with
its general multilingual abilities preserved compared with plain SFT.Summary
AI-Generated Summary