Het temmen van overmoed bij LLM's: Beloningskalibratie in RLHF
Taming Overconfidence in LLMs: Reward Calibration in RLHF
October 13, 2024
Auteurs: Jixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang
cs.AI
Samenvatting
Taalmodelkalibratie verwijst naar de afstemming tussen het vertrouwen van het model en de daadwerkelijke prestaties van zijn reacties. Terwijl eerdere studies wijzen op het overmoedfenomeen in Grote Taalmodellen (GTM's) en aantonen dat GTM's die zijn getraind met Versterkend Leren van Menselijke Feedback (VLMF) overmoedig zijn met een scherper uitvoeringswaarschijnlijkheid, onthullen we in deze studie dat VLMF modellen ertoe neigen om verbaal overmoedig te zijn in hun eigen reacties. We onderzoeken de onderliggende oorzaak van deze overmoed en tonen aan dat beloningsmodellen die worden gebruikt voor Proximale Beleidsoptimalisatie (PBO) inherente vooroordelen vertonen ten opzichte van hoge vertrouwensscores ongeacht de daadwerkelijke kwaliteit van de reacties. Voortbouwend op deze inzichten stellen we twee PBO-varianten voor: PBO-M: PBO met Gekalibreerde Beloningsmodellering en PBO-C: PBO met Gekalibreerde Beloningsberekening. PBO-M integreert expliciete vertrouwensscores in de training van beloningsmodellen, wat beloningsmodellen kalibreert om beter de afstemming tussen reactiekwaliteit en verbaald vertrouwen vast te leggen. PBO-C past de beloningscore aan tijdens PBO op basis van het verschil tussen de huidige beloning en het voortschrijdend gemiddelde van eerdere beloningen. Zowel PBO-M als PBO-C kunnen naadloos worden geïntegreerd in de huidige PBO-pijplijn en vereisen geen extra gouden labels. We evalueren onze methoden op zowel Llama3-8B als Mistral-7B over zes diverse datasets, waaronder meerkeuze- en open-eindgeneratie. Experimentresultaten tonen aan dat beide methoden de kalibratiefout kunnen verminderen en prestaties kunnen behouden die vergelijkbaar zijn met standaard PBO. We tonen verder aan dat ze de modelcapaciteiten niet in gevaar brengen in open-einde gespreksomgevingen.
English
Language model calibration refers to the alignment between the confidence of
the model and the actual performance of its responses. While previous studies
point out the overconfidence phenomenon in Large Language Models (LLMs) and
show that LLMs trained with Reinforcement Learning from Human Feedback (RLHF)
are overconfident with a more sharpened output probability, in this study, we
reveal that RLHF tends to lead models to express verbalized overconfidence in
their own responses. We investigate the underlying cause of this overconfidence
and demonstrate that reward models used for Proximal Policy Optimization (PPO)
exhibit inherent biases towards high-confidence scores regardless of the actual
quality of responses. Building upon this insight, we propose two PPO variants:
PPO-M: PPO with Calibrated Reward Modeling and PPO-C: PPO with Calibrated
Reward Calculation. PPO-M integrates explicit confidence scores in reward model
training, which calibrates reward models to better capture the alignment
between response quality and verbalized confidence. PPO-C adjusts the reward
score during PPO based on the difference between the current reward and the
moving average of past rewards. Both PPO-M and PPO-C can be seamlessly
integrated into the current PPO pipeline and do not require additional golden
labels. We evaluate our methods on both Llama3-8B and Mistral-7B across six
diverse datasets including multiple-choice and open-ended generation.
Experiment results demonstrate that both of our methods can reduce calibration
error and maintain performance comparable to standard PPO. We further show that
they do not compromise model capabilities in open-ended conversation settings.Summary
AI-Generated Summary