ChatPaper.aiChatPaper

VinePPO: 정교한 신용 할당을 통해 LLM 추론을 위한 RL 잠재력 해제

VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

October 2, 2024
저자: Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux
cs.AI

초록

대형 언어 모델 (LLMs)은 보상을 받기 전에 여러 복잡한 단계를 실행해야 하는 복잡한 추론 작업에 점점 더 적용되고 있습니다. 이러한 단계에 적절히 대가를 할당하는 것은 모델 성능을 향상시키기 위해 중요합니다. Proximal Policy Optimization (PPO)은 LLM 미세 조정에 사용되는 최첨단 강화 학습 (RL) 알고리즘으로, 가치 네트워크를 활용하여 대가 할당 문제에 대처합니다. 그러나 가치 네트워크는 복잡한 추론 작업에서 예상 누적 보상을 정확하게 예측하는 데 어려움을 겪어 종종 높은 분산 업데이트와 최적이 아닌 성능을 유발합니다. 본 연구에서는 가치 네트워크의 효과를 체계적으로 평가하고, 추론 중심의 LLM 작업에서 그들의 중요한 결점을 드러내어, 대안적인 단계를 비교할 때 거의 무작위 기준선을 앞질러 나가지 못한다는 것을 보여줍니다. 이에 대응하여, 우리는 VinePPO를 제안합니다. 이는 언어 환경의 유연성을 활용하여 편향되지 않은 몬테 카를로 기반 추정치를 계산하여 대규모 가치 네트워크의 필요성을 우회합니다. 우리의 방법은 MATH 및 GSM8K 데이터셋에서 PPO 및 다른 RL-프리 기준선을 일관되게 능가하며, 그레이디언트 업데이트 횟수가 적고(최대 9배), 월 클락 시간이 적게(최대 3.0배) 소요됩니다. 이러한 결과는 LLM의 RL 미세 조정에서 정확한 대가 할당의 중요성을 강조하고, VinePPO의 우수한 대안으로서의 잠재력을 입증합니다.
English
Large language models (LLMs) are increasingly applied to complex reasoning tasks that require executing several complex steps before receiving any reward. Properly assigning credit to these steps is essential for enhancing model performance. Proximal Policy Optimization (PPO), a state-of-the-art reinforcement learning (RL) algorithm used for LLM finetuning, employs value networks to tackle credit assignment. However, value networks face challenges in predicting the expected cumulative rewards accurately in complex reasoning tasks, often leading to high-variance updates and suboptimal performance. In this work, we systematically evaluate the efficacy of value networks and reveal their significant shortcomings in reasoning-heavy LLM tasks, showing that they barely outperform a random baseline when comparing alternative steps. To address this, we propose VinePPO, a straightforward approach that leverages the flexibility of language environments to compute unbiased Monte Carlo-based estimates, bypassing the need for large value networks. Our method consistently outperforms PPO and other RL-free baselines across MATH and GSM8K datasets with fewer gradient updates (up to 9x), less wall-clock time (up to 3.0x). These results emphasize the importance of accurate credit assignment in RL finetuning of LLM and demonstrate VinePPO's potential as a superior alternative.

Summary

AI-Generated Summary

PDF252November 16, 2024