Потерянные в буквализме: как обучение с учителем формирует переводческий стиль в больших языковых моделях
Lost in Literalism: How Supervised Training Shapes Translationese in LLMs
March 6, 2025
Авторы: Yafu Li, Ronghao Zhang, Zhilin Wang, Huajian Zhang, Leyang Cui, Yongjing Yin, Tong Xiao, Yue Zhang
cs.AI
Аннотация
Крупные языковые модели (LLM) достигли значительных успехов в машинном переводе, демонстрируя впечатляющие результаты для различных языков. Однако проблема "переводческого стиля" (translationese), характеризующегося излишне буквальными и неестественными переводами, остается актуальной для систем перевода на основе LLM. Несмотря на предварительное обучение на обширных корпусах естественных высказываний, LLM допускают ошибки, связанные с переводческим стилем, и генерируют неожиданно неестественные переводы, что обусловлено смещениями, возникающими в процессе контролируемого тонкого обучения (SFT). В данной работе мы систематически оцениваем распространенность переводческого стиля в переводах, созданных LLM, и исследуем его корни в ходе контролируемого обучения. Мы предлагаем методы для смягчения этих смещений, включая улучшение эталонных переводов и фильтрацию неестественных обучающих примеров. Эмпирические оценки показывают, что эти подходы значительно снижают проявления переводческого стиля, одновременно повышая естественность перевода, что подтверждается как экспертной оценкой, так и автоматическими метриками. Наши результаты подчеркивают необходимость адаптации процесса обучения для оптимизации выходных данных LLM, что открывает путь к более плавным и согласованным с целевым языком переводам. Мы публикуем данные и код по адресу https://github.com/yafuly/LLM_Translationese.
English
Large language models (LLMs) have achieved remarkable success in machine
translation, demonstrating impressive performance across diverse languages.
However, translationese, characterized by overly literal and unnatural
translations, remains a persistent challenge in LLM-based translation systems.
Despite their pre-training on vast corpora of natural utterances, LLMs exhibit
translationese errors and generate unexpected unnatural translations, stemming
from biases introduced during supervised fine-tuning (SFT). In this work, we
systematically evaluate the prevalence of translationese in LLM-generated
translations and investigate its roots during supervised training. We introduce
methods to mitigate these biases, including polishing golden references and
filtering unnatural training instances. Empirical evaluations demonstrate that
these approaches significantly reduce translationese while improving
translation naturalness, validated by human evaluations and automatic metrics.
Our findings highlight the need for training-aware adjustments to optimize LLM
translation outputs, paving the way for more fluent and
target-language-consistent translations. We release the data and code at
https://github.com/yafuly/LLM_Translationese.Summary
AI-Generated Summary