자기 일관성 선호 최적화
Self-Consistency Preference Optimization
November 6, 2024
저자: Archiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu
cs.AI
초록
자가 정렬은 모델이 인간 주석 없이 스스로 개선하는 방식으로, 빠르게 성장하고 있는 연구 분야입니다. 그러나 기존 기술은 올바른 보상을 할당하는 어려움 때문에 복잡한 추론 작업의 개선에 실패하는 경우가 많습니다. 정확도를 향상시키는 데 알려진 직교적인 접근 방식은 자일일성(self-consistency)이며, 이는 가장 일관된 답변을 찾기 위해 추론 시간에 여러 샘플링을 기반으로 적용되는 방법입니다. 본 연구에서는 자일일성 개념을 모델 훈련에 도움을 주기 위해 확장합니다. 따라서 우리는 자일일성 선호도 최적화(ScPO)를 소개합니다. ScPO는 비지도 학습의 새로운 문제에서 일관된 답변을 불일치하는 답변보다 선호되도록 반복적으로 훈련합니다. 우리는 ScPO가 GSM8K 및 MATH와 같은 추론 작업에서 일반적인 보상 모델 훈련에 비해 큰 개선을 이끌어내며, 금 답변이나 선호도로 지도된 훈련과의 격차를 줄이는 것을 보여줍니다. 또한 ScPO를 표준 지도 학습과 결합하면 결과를 더욱 향상시킬 수 있습니다. ZebraLogic에서 ScPO는 Llama-3 8B를 Llama-3 70B, Gemma-2 27B 및 Claude-3 Haiku보다 우수하게 만들기 위해 Llama-3 8B를 세밀하게 조정합니다.
English
Self-alignment, whereby models learn to improve themselves without human
annotation, is a rapidly growing research area. However, existing techniques
often fail to improve complex reasoning tasks due to the difficulty of
assigning correct rewards. An orthogonal approach that is known to improve
correctness is self-consistency, a method applied at inference time based on
multiple sampling in order to find the most consistent answer. In this work, we
extend the self-consistency concept to help train models. We thus introduce
self-consistency preference optimization (ScPO), which iteratively trains
consistent answers to be preferred over inconsistent ones on unsupervised new
problems. We show ScPO leads to large improvements over conventional reward
model training on reasoning tasks such as GSM8K and MATH, closing the gap with
supervised training with gold answers or preferences, and that combining ScPO
with standard supervised learning improves results even further. On ZebraLogic,
ScPO finetunes Llama-3 8B to be superior to Llama-3 70B, Gemma-2 27B, and
Claude-3 Haiku.Summary
AI-Generated Summary