역 강화 학습을 통해 LLM 훈련 목표를 재구성하는 통찰력

Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL

October 16, 2024
저자: Jared Joselowitz, Arjun Jagota, Satyapriya Krishna, Sonali Parbhoo
cs.AI

초록

강화 학습에서 인간 피드백으로 훈련된 대규모 언어 모델 (LLMs)은 놀라운 능력을 보여주었지만, 그들의 내재적 보상 함수와 의사 결정 과정은 여전히 불투명합니다. 본 논문은 역 강화 학습 (IRL)을 적용하여 LLMs를 해석하는 새로운 방법론을 소개합니다. 우리는 다양한 크기의 유해성에 맞춰진 LLMs에 대한 실험을 수행하며, 인간의 선호도를 예측하는 데 최대 80.40%의 정확도를 달성하는 보상 모델을 추출합니다. 우리의 분석은 보상 함수의 식별 불가능성, 모델 크기와 해석 가능성 사이의 관계, 그리고 강화 학습을 통한 잠재적인 함정에 대한 중요한 통찰력을 제공합니다. 우리는 IRL에서 파생된 보상 모델이 새로운 LLMs를 세밀하게 조정하는 데 사용될 수 있음을 입증하며, 유해성 벤치마크에서 비교 가능하거나 향상된 성능을 보여줍니다. 본 연구는 LLM 정렬을 이해하고 개선하는 새로운 시각을 제공하며, 이러한 강력한 시스템의 책임 있는 개발과 배포에 대한 함의를 제시합니다.
English
Large language models (LLMs) trained with Reinforcement Learning from Human Feedback (RLHF) have demonstrated remarkable capabilities, but their underlying reward functions and decision-making processes remain opaque. This paper introduces a novel approach to interpreting LLMs by applying inverse reinforcement learning (IRL) to recover their implicit reward functions. We conduct experiments on toxicity-aligned LLMs of varying sizes, extracting reward models that achieve up to 80.40% accuracy in predicting human preferences. Our analysis reveals key insights into the non-identifiability of reward functions, the relationship between model size and interpretability, and potential pitfalls in the RLHF process. We demonstrate that IRL-derived reward models can be used to fine-tune new LLMs, resulting in comparable or improved performance on toxicity benchmarks. This work provides a new lens for understanding and improving LLM alignment, with implications for the responsible development and deployment of these powerful systems.

Summary

AI-Generated Summary

PDF42November 16, 2024