reWordBench: Benchmarking und Verbesserung der Robustheit von Belohnungsmodellen mit transformierten Eingaben

Zusammenfassung

Belohnungsmodelle sind zu einem festen Bestandteil der modernen NLP geworden und dienen nicht nur als skalierbarer Textevaluator, sondern auch als unverzichtbare Komponente in vielen Alignment-Rezepten und Inferenzzeit-Algorithmen. Allerdings könnte die gesteigerte Leistung aktueller Belohnungsmodelle auf Standard-Benchmarks teilweise auf Überanpassungseffekte zurückzuführen sein, was das Verständnis ihrer tatsächlichen Fähigkeiten verfälschen würde. In dieser Arbeit untersuchen wir die Robustheit von Belohnungsmodellen und das Ausmaß solcher Überanpassung. Wir entwickeln **reWordBench**, das die Eingaben von Belohnungsmodellen systematisch auf bedeutungs- oder rangbewahrende Weise transformiert. Wir zeigen, dass state-of-the-art Belohnungsmodelle selbst bei geringfügigen Eingabetransformationen erhebliche Leistungseinbußen erleiden, manchmal sogar auf deutlich unterzufällige Genauigkeit abfallen, was auf eine gewisse Sprödigkeit hindeutet. Um die Robustheit von Belohnungsmodellen zu verbessern, schlagen wir vor, sie explizit darauf zu trainieren, ähnliche Bewertungen für Paraphrasen zu vergeben, und stellen fest, dass dieser Ansatz auch die Robustheit gegenüber anderen Arten von Transformationen verbessert. Zum Beispiel reduziert unser robustes Belohnungsmodell solche Leistungseinbußen für die Chat-Hard-Teilmenge in RewardBench um etwa die Hälfte. Darüber hinaus zeigen unsere robusten Belohnungsmodelle, wenn sie im Alignment eingesetzt werden, eine bessere Nutzbarkeit und führen zu qualitativ hochwertigeren Ausgaben, wobei sie in bis zu 59 % der Fälle gegen ein standardmäßig trainiertes Belohnungsmodell gewinnen.

English

Reward models have become a staple in modern NLP, serving as not only a scalable text evaluator, but also an indispensable component in many alignment recipes and inference-time algorithms. However, while recent reward models increase performance on standard benchmarks, this may partly be due to overfitting effects, which would confound an understanding of their true capability. In this work, we scrutinize the robustness of reward models and the extent of such overfitting. We build **reWordBench**, which systematically transforms reward model inputs in meaning- or ranking-preserving ways. We show that state-of-the-art reward models suffer from substantial performance degradation even with minor input transformations, sometimes dropping to significantly below-random accuracy, suggesting brittleness. To improve reward model robustness, we propose to explicitly train them to assign similar scores to paraphrases, and find that this approach also improves robustness to other distinct kinds of transformations. For example, our robust reward model reduces such degradation by roughly half for the Chat Hard subset in RewardBench. Furthermore, when used in alignment, our robust reward models demonstrate better utility and lead to higher-quality outputs, winning in up to 59% of instances against a standardly trained RM.

reWordBench: Benchmarking und Verbesserung der Robustheit von Belohnungsmodellen mit transformierten Eingaben

reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs

Zusammenfassung

Summary

Support

Support