ChatPaper.aiChatPaper

주성분 분석을 통한 다양한 인간 선호 학습 재고

Rethinking Diverse Human Preference Learning through Principal Component Analysis

February 18, 2025
저자: Feng Luo, Rui Yang, Hao Sun, Chunyuan Deng, Jiarui Yao, Jingyan Shen, Huan Zhang, Hanjie Chen
cs.AI

초록

인간의 선호도를 이해하는 것은 기초 모델을 개선하고 개인화된 AI 시스템을 구축하는 데 있어 핵심적입니다. 그러나 선호도는 본질적으로 다양하고 복잡하여 기존의 보상 모델이 이를 포괄적으로 파악하기 어렵습니다. 세분화된 선호도 데이터가 도움이 될 수 있지만, 이를 수집하는 데는 비용이 많이 들고 확장하기 어렵습니다. 본 논문에서는 세분화된 주석 없이도 이진 비교를 통해 다양한 인간의 선호도를 추출하는 새로운 접근법인 분해된 보상 모델(Decomposed Reward Models, DRMs)을 소개합니다. 우리의 핵심 통찰은 인간의 선호도를 벡터로 표현하고 이를 주성분 분석(Principal Component Analysis, PCA)을 통해 분석하는 것입니다. 선호된 응답과 거부된 응답 간의 임베딩 차이 데이터셋을 구축함으로써, DRMs는 선호도의 다양한 측면을 포착하는 직교 기저 벡터를 식별합니다. 이러한 분해된 보상은 다양한 사용자 요구에 맞게 유연하게 결합될 수 있어, 기존의 보상 모델에 비해 해석 가능하고 확장 가능한 대안을 제공합니다. 우리는 DRMs가 도움, 안전, 유머 등 의미 있는 선호도 차원을 효과적으로 추출하고 추가 훈련 없이도 새로운 사용자에 적응할 수 있음을 입증합니다. 이러한 결과는 DRMs가 개인화되고 해석 가능한 대형 언어 모델(LLM) 정렬을 위한 강력한 프레임워크임을 보여줍니다.
English
Understanding human preferences is crucial for improving foundation models and building personalized AI systems. However, preferences are inherently diverse and complex, making it difficult for traditional reward models to capture their full range. While fine-grained preference data can help, collecting it is expensive and hard to scale. In this paper, we introduce Decomposed Reward Models (DRMs), a novel approach that extracts diverse human preferences from binary comparisons without requiring fine-grained annotations. Our key insight is to represent human preferences as vectors and analyze them using Principal Component Analysis (PCA). By constructing a dataset of embedding differences between preferred and rejected responses, DRMs identify orthogonal basis vectors that capture distinct aspects of preference. These decomposed rewards can be flexibly combined to align with different user needs, offering an interpretable and scalable alternative to traditional reward models. We demonstrate that DRMs effectively extract meaningful preference dimensions (e.g., helpfulness, safety, humor) and adapt to new users without additional training. Our results highlight DRMs as a powerful framework for personalized and interpretable LLM alignment.

Summary

AI-Generated Summary

PDF343February 19, 2025