DRT-o1: 長い推論チェーンを介した最適化された深層推論翻訳
DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought
December 23, 2024
著者: Jiaan Wang, Fandong Meng, Yunlong Liang, Jie Zhou
cs.AI
要旨
最近、O1のようなモデルが代表的な例として登場し、数学やコーディングなどの推論タスクにおける長い思考連鎖(CoT)の効果を示しています。本論文では、長いCoTの成功をニューラル機械翻訳(MT)にもたらす試みとして、DRT-o1を紹介します。具体的には、比喩や隠喩を含む文学書を考慮した場合、これらのテキストを目標言語に翻訳することは文化の違いから実践上非常に難しいです。このような場合、直訳はしばしば意図された意味を効果的に伝えることができません。プロの人間翻訳者でさえ、翻訳プロセス全体で意味を保持するために相当な考慮が必要です。MTにおけるLLMの長い思考能力をシミュレートするために、まず既存の文学書から比喩や隠喩を含む文を収集し、その後、長い思考を介してこれらの文を翻訳するためのマルチエージェントフレームワークを開発します。マルチエージェントフレームワークでは、翻訳者がアドバイザーからの提案に基づいてソース文を反復的に翻訳し、長い思考を行います。長い思考の効果を確保するために、評価者も採用され、現在のラウンドでの翻訳が前回よりも優れているかどうかを判断します。このようにして、数万件の長い思考MTデータを収集し、それをDRT-o1のトレーニングに使用します。文学翻訳の実験結果は、DRT-o1の効果を示しています。Qwen2.5-7BおよびQwen2.5-14Bをバックボーンとして使用することで、DRT-o1によって達成された改善は、7.33〜8.26 BLEUおよび1.66〜3.36 CometScoreです。さらに、DRT-o1-7Bは、QwQ-32B-Previewを7.82 BLEUおよび1.46 CometScoreで上回り、その効果を示しています。このプロジェクトは、https://github.com/krystalan/DRT-o1 で入手可能です。
English
Recently, O1-like models have emerged as representative examples,
illustrating the effectiveness of long chain-of-thought (CoT) in reasoning
tasks such as math and coding tasks. In this paper, we introduce DRT-o1, an
attempt to bring the success of long CoT to neural machine translation (MT).
Specifically, in view of the literature books that might involve similes and
metaphors, translating these texts to a target language is very difficult in
practice due to cultural differences. In such cases, literal translation often
fails to convey the intended meaning effectively. Even for professional human
translators, considerable thought must be given to preserving semantics
throughout the translation process. To simulate LLMs' long thought ability in
MT, we first mine sentences containing similes or metaphors from existing
literature books, and then develop a multi-agent framework to translate these
sentences via long thought. In the multi-agent framework, a translator is used
to iteratively translate the source sentence under the suggestions provided by
an advisor. To ensure the effectiveness of the long thoughts, an evaluator is
also employed to judge whether the translation in the current round is better
than the previous one or not. In this manner, we collect tens of thousands of
long-thought MT data, which is used to train our DRT-o1. The experimental
results on literature translation demonstrate the effectiveness of the DRT-o1.
Using Qwen2.5-7B and Qwen2.5-14B as the backbones, the improvement brought by
DRT-o1 achieves 7.33~8.26 BLEU and 1.66~3.36 CometScore. Besides, DRT-o1-7B can
outperform QwQ-32B-Preview by 7.82 BLEU and 1.46 CometScore, showing its
effectiveness. The project is available at https://github.com/krystalan/DRT-o1Summary
AI-Generated Summary