ChatPaper.aiChatPaper

LongDPO: 비판 보강 단계별 정보를 통해 LLMs의 뛰어난 장문 생성 능력 해제

LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information

February 4, 2025
저자: Bowen Ping, Jiali Zeng, Fandong Meng, Shuo Wang, Jie Zhou, Shanghang Zhang
cs.AI

초록

긴 형식 생성은 학술 논문 및 저장소 수준 코드 생성에 중요하다. 그럼에도 불구하고, 현재의 모델인 GPT-4o를 포함한 모델들은 아직도 만족스럽지 못한 성능을 보여준다. 결과 지도를 활용하는 기존 방법들은 종종 확장된 맥락에 대한 자세한 피드백을 제공하지 못하여 실패한다. 이 결함으로 인해 쿼리 요구 사항을 완전히 충족시키지 못하는 콘텐츠가 생성되어 길이의 편차나 품질 저하와 같은 문제가 발생할 수 있다. 본 논문에서는 과정 지도를 통해 긴 형식 생성을 향상시키는 것을 제안한다. 우리는 Monte Carlo Tree Search를 활용하여 절차적 선호 쌍을 수집하며, 일관성을 유지하기 위해 전역 메모리 풀을 활용한다. 최적이 아닌 후보 선택 문제를 해결하기 위해 외부 비평을 통합하여 선호 쌍의 품질을 개선한다. 마지막으로, 수집된 단계별 선호 쌍을 사용하여 단계별 DPO를 적용한다. 실험 결과는 우리의 방법이 긴 형식 생성 벤치마크에서 길이와 품질을 향상시키며, 다양한 모델 백본에 걸쳐 일반 벤치마크에서 거의 손실 없는 성능을 보여준다.
English
Long-form generation is crucial for academic writing papers and repo-level code generation. Despite this, current models, including GPT-4o, still exhibit unsatisfactory performance. Existing methods that utilize preference learning with outcome supervision often fail to provide detailed feedback for extended contexts. This shortcoming can lead to content that does not fully satisfy query requirements, resulting in issues like length deviations, and diminished quality. In this paper, we propose enhancing long-form generation by incorporating process supervision. We employ Monte Carlo Tree Search to gather stepwise preference pairs, utilizing a global memory pool to maintain consistency. To address the issue of suboptimal candidate selection, we integrate external critiques to refine and improve the quality of the preference pairs. Finally, we apply step-level DPO using the collected stepwise preference pairs. Experimental results show that our method improves length and quality on long-form generation benchmarks, with almost lossless performance on general benchmarks across various model backbones.

Summary

AI-Generated Summary

PDF42February 5, 2025