reWordBench: Benchmarking und Verbesserung der Robustheit von Belohnungsmodellen mit transformierten Eingaben
reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs
March 14, 2025
Autoren: Zhaofeng Wu, Michihiro Yasunaga, Andrew Cohen, Yoon Kim, Asli Celikyilmaz, Marjan Ghazvininejad
cs.AI
Zusammenfassung
Belohnungsmodelle sind zu einem festen Bestandteil der modernen NLP geworden und dienen nicht nur als skalierbarer Textevaluator, sondern auch als unverzichtbare Komponente in vielen Alignment-Rezepten und Inferenzzeit-Algorithmen. Allerdings könnte die gesteigerte Leistung aktueller Belohnungsmodelle auf Standard-Benchmarks teilweise auf Überanpassungseffekte zurückzuführen sein, was das Verständnis ihrer tatsächlichen Fähigkeiten verfälschen würde. In dieser Arbeit untersuchen wir die Robustheit von Belohnungsmodellen und das Ausmaß solcher Überanpassung. Wir entwickeln **reWordBench**, das die Eingaben von Belohnungsmodellen systematisch auf bedeutungs- oder rangbewahrende Weise transformiert. Wir zeigen, dass state-of-the-art Belohnungsmodelle selbst bei geringfügigen Eingabetransformationen erhebliche Leistungseinbußen erleiden, manchmal sogar auf deutlich unterzufällige Genauigkeit abfallen, was auf eine gewisse Sprödigkeit hindeutet. Um die Robustheit von Belohnungsmodellen zu verbessern, schlagen wir vor, sie explizit darauf zu trainieren, ähnliche Bewertungen für Paraphrasen zu vergeben, und stellen fest, dass dieser Ansatz auch die Robustheit gegenüber anderen Arten von Transformationen verbessert. Zum Beispiel reduziert unser robustes Belohnungsmodell solche Leistungseinbußen für die Chat-Hard-Teilmenge in RewardBench um etwa die Hälfte. Darüber hinaus zeigen unsere robusten Belohnungsmodelle, wenn sie im Alignment eingesetzt werden, eine bessere Nutzbarkeit und führen zu qualitativ hochwertigeren Ausgaben, wobei sie in bis zu 59 % der Fälle gegen ein standardmäßig trainiertes Belohnungsmodell gewinnen.
English
Reward models have become a staple in modern NLP, serving as not only a
scalable text evaluator, but also an indispensable component in many alignment
recipes and inference-time algorithms. However, while recent reward models
increase performance on standard benchmarks, this may partly be due to
overfitting effects, which would confound an understanding of their true
capability. In this work, we scrutinize the robustness of reward models and the
extent of such overfitting. We build **reWordBench**, which systematically
transforms reward model inputs in meaning- or ranking-preserving ways. We show
that state-of-the-art reward models suffer from substantial performance
degradation even with minor input transformations, sometimes dropping to
significantly below-random accuracy, suggesting brittleness. To improve reward
model robustness, we propose to explicitly train them to assign similar scores
to paraphrases, and find that this approach also improves robustness to other
distinct kinds of transformations. For example, our robust reward model reduces
such degradation by roughly half for the Chat Hard subset in RewardBench.
Furthermore, when used in alignment, our robust reward models demonstrate
better utility and lead to higher-quality outputs, winning in up to 59% of
instances against a standardly trained RM.Summary
AI-Generated Summary