ChatPaper.aiChatPaper

多言語思考はLLMの推論能力を強化するか?

Could Thinking Multilingually Empower LLM Reasoning?

April 16, 2025
著者: Changjiang Gao, Xu Huang, Wenhao Zhu, Shujian Huang, Lei Li, Fei Yuan
cs.AI

要旨

先行研究によれば、大規模言語モデルには顕著な「英語バイアス」が存在し、タスクが英語で提示された場合にしばしば優れた性能を発揮することが示されています。興味深いことに、私たちは推論タスクにおいて特定の他の言語を使用することで、英語よりも優れた性能が得られる場合があることを観察しました。しかし、この現象はまだ十分に探究されていません。本論文では、推論タスクにおける多言語活用の上限を探り、多言語推論が英語のみの推論に比べて大幅に(Acc@kポイントで約10ポイント)かつ堅牢に(翻訳品質と言語選択の変動に対する耐性)高い上限を約束することを示唆します。この上限の背後にある理由と、それに到達する際の課題を分析するだけでなく、一般的な回答選択方法がその限界とバイアスのためにこの上限を達成できないことも明らかにしました。これらの知見は、LLMにおける多言語推論の可能性を最大限に活用するための今後の研究の道を開く可能性があります。
English
Previous work indicates that large language models exhibit a significant "English bias", i.e. they often perform better when tasks are presented in English. Interestingly, we have observed that using certain other languages in reasoning tasks can yield better performance than English. However, this phenomenon remains under-explored. In this paper, we explore the upper bound of harnessing multilingualism in reasoning tasks, suggesting that multilingual reasoning promises significantly (by nearly 10 Acc@k points) and robustly (tolerance for variations in translation quality and language choice) higher upper bounds than English-only reasoning. Besides analyzing the reason behind the upper bound and challenges in reaching it, we also find that common answer selection methods cannot achieve this upper bound, due to their limitations and biases. These insights could pave the way for future research aimed at fully harnessing the potential of multilingual reasoning in LLMs.

Summary

AI-Generated Summary

PDF262April 21, 2025