ChatPaper.aiChatPaper

사고 선호 최적화

Thinking Preference Optimization

February 17, 2025
저자: Wang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han
cs.AI

초록

지도 미세조정(Supervised Fine-Tuning, SFT)은 상대적으로 작은 대형 언어 모델(LLM)의 긴 사고 연쇄(Chain-of-Thought, CoT) 추론 능력을 향상시키기 위해 널리 사용되고 효과적인 방법으로, 더 큰 LLM의 긴 CoT 응답을 사용하여 미세조정을 수행합니다. 추론 능력을 지속적으로 개선하기 위해서는 새로운 고품질의 긴 CoT 추론 SFT 데이터를 수집하거나 기존 SFT 데이터셋을 반복적으로 학습할 수 있습니다. 그러나 새로운 긴 CoT SFT 데이터를 획득하는 것은 비용이 많이 들고 제한적이며, 반복 학습은 종종 성능 정체 또는 하락을 초래합니다. SFT 데이터를 활용하여 성능을 더욱 향상시키기 위해, 우리는 새로운 긴 CoT 응답 없이도 긴 CoT 추론을 강화할 수 있는 간단하면서도 효과적인 SFT 후속 방법인 사고 선호 최적화(Thinking Preference Optimization, ThinkPO)를 제안합니다. ThinkPO는 동일한 질문에 대해 쉽게 구할 수 있는 짧은 CoT 추론 응답을 거부된 답변으로, 긴 CoT 응답을 선택된 답변으로 사용합니다. 그런 다음 직접 선호 최적화(Direct Preference Optimization)를 적용하여 모델이 더 긴 추론 출력을 선호하도록 유도합니다. 실험 결과, ThinkPO는 SFT된 모델의 추론 성능을 추가로 개선하며, 예를 들어 수학 추론 정확도를 8.6% 증가시키고 출력 길이를 25.9% 늘립니다. 특히, ThinkPO는 공개적으로 증류된 SFT 모델의 성능을 지속적으로 향상시킬 수 있으며, 공식 DeepSeek-R1-Distill-Qwen-7B 모델의 MATH500 성능을 87.4%에서 91.2%로 증가시킵니다.
English
Supervised Fine-Tuning (SFT) has been a go-to and effective method for enhancing long chain-of-thought (CoT) reasoning in relatively small LLMs by fine-tuning them with long CoT responses from larger LLMs. To continually improve reasoning abilities, we can either collect new high-quality long CoT reasoning SFT data or repeatedly train on existing SFT datasets. However, acquiring new long CoT SFT data is costly and limited, while repeated training often results in a performance plateau or decline. To further boost the performance with the SFT data, we propose Thinking Preference Optimization (ThinkPO), a simple yet effective post-SFT method that enhances long CoT reasoning without requiring new long CoT responses. Instead, ThinkPO utilizes readily available or easily obtainable short CoT reasoning responses as rejected answers and long CoT responses as chosen answers for the same question. It then applies direct preference optimization to encourage the model to favor longer reasoning outputs. Experiments show that ThinkPO further improves the reasoning performance of SFT-ed models, e.g. it increases math reasoning accuracy of SFT-ed models by 8.6% and output length by 25.9%. Notably, ThinkPO is capable of continually boosting the performance of the publicly distilled SFT model, e.g., increasing the official DeepSeek-R1-Distill-Qwen-7B's performance on MATH500 from 87.4% to 91.2%.

Summary

AI-Generated Summary

PDF93February 20, 2025