ChatPaper.aiChatPaper

DRT-o1: 긴 사고 연쇄를 통한 최적화된 심층 추론 번역

DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

December 23, 2024
저자: Jiaan Wang, Fandong Meng, Yunlong Liang, Jie Zhou
cs.AI

초록

최근에는 O1과 유사한 모델들이 대표적인 예시로 등장하여, 수학 및 코딩과 같은 추론 작업에서의 긴 사고 체인의 효과를 보여주었습니다. 본 논문에서는 DRT-o1을 소개하는데, 이는 긴 사고 체인의 성공을 신경 기계 번역(MT)에 적용하려는 시도입니다. 특히 유사성과 은유를 포함할 수 있는 문학 서적을 고려할 때, 이러한 텍스트를 목표 언어로 번역하는 것은 문화적 차이로 인해 매우 어려운 실무적인 문제입니다. 이러한 경우에는 의역이 의도한 의미를 효과적으로 전달하지 못할 수 있습니다. 심지어 전문 번역가들도 번역 과정 전반에서 의미를 보존하는 데 상당한 고민을 해야 합니다. MT에서 LLMs의 긴 사고 능력을 시뮬레이션하기 위해, 먼저 기존 문학 서적에서 유사성이나 은유를 포함하는 문장을 채굴하고, 이후 장문 번역을 통해 이러한 문장을 번역하기 위한 다중 에이전트 프레임워크를 개발합니다. 다중 에이전트 프레임워크에서는 번역가가 조언자가 제공한 제안에 따라 소스 문장을 반복적으로 번역하도록 하고, 긴 사고의 효과를 보장하기 위해 평가자도 사용하여 현재 라운드의 번역이 이전 것보다 나은지 여부를 판단합니다. 이러한 방식으로 수만 건의 장문 MT 데이터를 수집하여 우리의 DRT-o1을 훈련하는 데 사용합니다. 문학 번역에 대한 실험 결과는 DRT-o1의 효과를 입증합니다. Qwen2.5-7B 및 Qwen2.5-14B를 백본으로 사용하여 DRT-o1에 의해 가져온 개선은 7.33~8.26 BLEU 및 1.66~3.36 CometScore를 달성합니다. 또한, DRT-o1-7B는 QwQ-32B-Preview보다 7.82 BLEU 및 1.46 CometScore로 우수성을 나타내며 효과를 입증합니다. 해당 프로젝트는 https://github.com/krystalan/DRT-o1에서 확인할 수 있습니다.
English
Recently, O1-like models have emerged as representative examples, illustrating the effectiveness of long chain-of-thought (CoT) in reasoning tasks such as math and coding tasks. In this paper, we introduce DRT-o1, an attempt to bring the success of long CoT to neural machine translation (MT). Specifically, in view of the literature books that might involve similes and metaphors, translating these texts to a target language is very difficult in practice due to cultural differences. In such cases, literal translation often fails to convey the intended meaning effectively. Even for professional human translators, considerable thought must be given to preserving semantics throughout the translation process. To simulate LLMs' long thought ability in MT, we first mine sentences containing similes or metaphors from existing literature books, and then develop a multi-agent framework to translate these sentences via long thought. In the multi-agent framework, a translator is used to iteratively translate the source sentence under the suggestions provided by an advisor. To ensure the effectiveness of the long thoughts, an evaluator is also employed to judge whether the translation in the current round is better than the previous one or not. In this manner, we collect tens of thousands of long-thought MT data, which is used to train our DRT-o1. The experimental results on literature translation demonstrate the effectiveness of the DRT-o1. Using Qwen2.5-7B and Qwen2.5-14B as the backbones, the improvement brought by DRT-o1 achieves 7.33~8.26 BLEU and 1.66~3.36 CometScore. Besides, DRT-o1-7B can outperform QwQ-32B-Preview by 7.82 BLEU and 1.46 CometScore, showing its effectiveness. The project is available at https://github.com/krystalan/DRT-o1
PDF224December 24, 2024