ChatPaper.aiChatPaper

Jenseits von Nur-Decoder: Große Sprachmodelle können effektive Encoder für maschinelle Übersetzung sein

Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation

March 9, 2025
Autoren: Yingfeng Luo, Tong Zheng, Yongyu Mu, Bei Li, Qinghong Zhang, Yongqi Gao, Ziqiang Xu, Peinan Feng, Xiaoqian Liu, Tong Xiao, Jingbo Zhu
cs.AI

Zusammenfassung

Das Feld der neuronalen maschinellen Übersetzung (NMT) hat sich mit dem Aufkommen großer Sprachmodelle (LLMs) verändert. Ein Großteil der jüngsten Schwerpunkte in der natürlichen Sprachverarbeitung (NLP) lag darauf, maschinelle Übersetzung und viele andere Probleme mithilfe eines einzigen vortrainierten Transformer-Decoders zu modellieren, während Encoder-Decoder-Architekturen, die in früheren NMT-Modellen der Standard waren, relativ weniger Beachtung fanden. In diesem Artikel untersuchen wir Übersetzungsmodelle, die universell, effizient und einfach zu optimieren sind, indem wir die Welt der LLMs mit der Welt der NMT verbinden. Wir wenden LLMs auf die NMT-Kodierung an und lassen den NMT-Decoder unverändert. Zudem entwickeln wir Methoden, um LLMs besser an den NMT-Decoder anzupassen. Darüber hinaus erstellen wir einen neuen Datensatz mit mehreren Aufgaben, um zu bewerten, wie gut das maschinelle Übersetzungssystem über verschiedene Aufgaben hinweg generalisiert. Auswertungen auf den WMT- und unseren Datensätzen zeigen, dass die Ergebnisse unserer Methode in Bezug auf die Übersetzungsqualität mit einer Reihe von Baselines gleichziehen oder diese übertreffen, dabei jedoch eine 2,4- bis 6,5-fache Beschleunigung der Inferenzgeschwindigkeit und eine 75%ige Reduzierung des Speicherbedarfs des KV-Caches erreichen. Es zeigt auch eine starke Generalisierung über eine Vielzahl von übersetzungsbezogenen Aufgaben hinweg.
English
The field of neural machine translation (NMT) has changed with the advent of large language models (LLMs). Much of the recent emphasis in natural language processing (NLP) has been on modeling machine translation and many other problems using a single pre-trained Transformer decoder, while encoder-decoder architectures, which were the standard in earlier NMT models, have received relatively less attention. In this paper, we explore translation models that are universal, efficient, and easy to optimize, by marrying the world of LLMs with the world of NMT. We apply LLMs to NMT encoding and leave the NMT decoder unchanged. We also develop methods for adapting LLMs to work better with the NMT decoder. Furthermore, we construct a new dataset involving multiple tasks to assess how well the machine translation system generalizes across various tasks. Evaluations on the WMT and our datasets show that results using our method match or surpass a range of baselines in terms of translation quality, but achieve 2.4 sim 6.5 times inference speedups and a 75% reduction in the memory footprint of the KV cache. It also demonstrates strong generalization across a variety of translation-related tasks.

Summary

AI-Generated Summary

PDF52March 12, 2025