Потерянные в буквализме: как обучение с учителем формирует переводческий стиль в больших языковых моделях

Аннотация

Крупные языковые модели (LLM) достигли значительных успехов в машинном переводе, демонстрируя впечатляющие результаты для различных языков. Однако проблема "переводческого стиля" (translationese), характеризующегося излишне буквальными и неестественными переводами, остается актуальной для систем перевода на основе LLM. Несмотря на предварительное обучение на обширных корпусах естественных высказываний, LLM допускают ошибки, связанные с переводческим стилем, и генерируют неожиданно неестественные переводы, что обусловлено смещениями, возникающими в процессе контролируемого тонкого обучения (SFT). В данной работе мы систематически оцениваем распространенность переводческого стиля в переводах, созданных LLM, и исследуем его корни в ходе контролируемого обучения. Мы предлагаем методы для смягчения этих смещений, включая улучшение эталонных переводов и фильтрацию неестественных обучающих примеров. Эмпирические оценки показывают, что эти подходы значительно снижают проявления переводческого стиля, одновременно повышая естественность перевода, что подтверждается как экспертной оценкой, так и автоматическими метриками. Наши результаты подчеркивают необходимость адаптации процесса обучения для оптимизации выходных данных LLM, что открывает путь к более плавным и согласованным с целевым языком переводам. Мы публикуем данные и код по адресу https://github.com/yafuly/LLM_Translationese.

English

Large language models (LLMs) have achieved remarkable success in machine translation, demonstrating impressive performance across diverse languages. However, translationese, characterized by overly literal and unnatural translations, remains a persistent challenge in LLM-based translation systems. Despite their pre-training on vast corpora of natural utterances, LLMs exhibit translationese errors and generate unexpected unnatural translations, stemming from biases introduced during supervised fine-tuning (SFT). In this work, we systematically evaluate the prevalence of translationese in LLM-generated translations and investigate its roots during supervised training. We introduce methods to mitigate these biases, including polishing golden references and filtering unnatural training instances. Empirical evaluations demonstrate that these approaches significantly reduce translationese while improving translation naturalness, validated by human evaluations and automatic metrics. Our findings highlight the need for training-aware adjustments to optimize LLM translation outputs, paving the way for more fluent and target-language-consistent translations. We release the data and code at https://github.com/yafuly/LLM_Translationese.

Потерянные в буквализме: как обучение с учителем формирует переводческий стиль в больших языковых моделях

Lost in Literalism: How Supervised Training Shapes Translationese in LLMs

Аннотация

Summary

Support