ChatPaper.aiChatPaper

선호 정렬이 LLM 기반 번역을 향상시키는 데 항상 최선의 선택인가? 경험적 분석

Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis

September 30, 2024
저자: Hippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro
cs.AI

초록

기계 번역(MT) 평가를 위한 신경 메트릭은 전통적인 어휘 메트릭에 비해 인간 판단과 더 높은 상관 관계를 가지기 때문에 점점 주목받고 있습니다. 따라서 연구자들은 품질에 기반한 디코딩 전략을 통해 신경 메트릭을 활용하여 우도 기반 방법보다 더 나은 결과를 달성했습니다. 대형 언어 모델(LLM)의 등장으로 인해, 품질 추정기에 의해 유도된 선호 정렬 기술이 번역 품질을 향상시킬 수 있는 잠재력으로 인해 주목을 받고 있습니다. 본 연구는 대조적 선호 최적화(CPO)에 초점을 맞추고, 선호 기반 정렬이 번역 품질에 미치는 영향을 평가하기 위해 광범위한 실험을 실시했습니다. 우리의 연구 결과는 CPO가 정렬 메트릭에 있어서 고품질 데이터에서 지도 미세 조정(SFT)을 일관되게 능가하지만, 신경적 및 어휘적 메트릭 간의 특히 하류 평가 메트릭 간의 불안정성을 야기할 수 있다는 것을 보여줍니다. 더불어, 후보 번역 생성을 위해 기본 모델에만 의존하는 것이 여러 외부 시스템을 사용하는 것과 비교 가능한 성능을 달성하면서 하류 메트릭 간의 더 나은 일관성을 보장한다는 점을 입증합니다.
English
Neural metrics for machine translation (MT) evaluation have become increasingly prominent due to their superior correlation with human judgments compared to traditional lexical metrics. Researchers have therefore utilized neural metrics through quality-informed decoding strategies, achieving better results than likelihood-based methods. With the rise of Large Language Models (LLMs), preference-based alignment techniques have gained attention for their potential to enhance translation quality by optimizing model weights directly on preferences induced by quality estimators. This study focuses on Contrastive Preference Optimization (CPO) and conducts extensive experiments to evaluate the impact of preference-based alignment on translation quality. Our findings indicate that while CPO consistently outperforms Supervised Fine-Tuning (SFT) on high-quality data with regard to the alignment metric, it may lead to instability across downstream evaluation metrics, particularly between neural and lexical ones. Additionally, we demonstrate that relying solely on the base model for generating candidate translations achieves performance comparable to using multiple external systems, while ensuring better consistency across downstream metrics.

Summary

AI-Generated Summary

PDF162November 16, 2024