ChatPaper.aiChatPaper

DPO 커널: 직접 선호도 최적화를 위한 의미론적으로 인식하는, 커널 강화된, 다양성 풍부한 패러다임

DPO Kernels: A Semantically-Aware, Kernel-Enhanced, and Divergence-Rich Paradigm for Direct Preference Optimization

January 5, 2025
저자: Amitava Das, Suranjana Trivedy, Danush Khanna, Rajarshi Roy, Gurpreet Singh, Basab Ghosh, Yaswanth Narsupalli, Vinija Jain, Vasu Sharma, Aishwarya Naresh Reganti, Aman Chadha
cs.AI

초록

대형 언어 모델(LLMs)의 급속한 성장은 많은 응용 프로그램을 가능케 했지만, 동시에 다양한 가치와 선호도와 조화를 이루는 것에 대한 어려움을 강조합니다. 직접 선호도 최적화(DPO)는 조화에 중요하지만 고정된 발산과 제한된 특징 변환으로 제약을 받습니다. 우리는 이러한 문제를 해결하기 위해 커널 방법을 통합한 DPO-Kernels를 제안합니다. 이는 네 가지 주요 기여를 통해 이 문제에 대처합니다: (i) 다양한 변환을 위한 다항식, RBF, Mahalanobis, 그리고 스펙트럴 커널을 통합한 커널화된 표현, 그리고 임베딩 기반과 확률 기반 목표를 결합한 하이브리드 손실을 포함합니다; (ii) 안정성을 높이기 위한 발산 대안(Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein, 그리고 f-발산); (iii) 최적의 커널-발산 쌍을 자동으로 선택하는 데이터 주도 선택 메트릭; 그리고 (iv) 지역적 정밀도와 전역적 모델링을 위한 계층적 커널 혼합. 12개 데이터셋에서의 평가는 사실성, 안전성, 추론, 그리고 지시 따르기에서 최첨단 성능을 보여줍니다. Heavy-Tailed Self-Regularization에 기반을 둔 DPO-Kernels는 LLMs에 대한 견고한 일반화를 유지하며, 추가 조화 연구를 위한 포괄적 자원을 제공합니다.
English
The rapid rise of large language models (LLMs) has unlocked many applications but also underscores the challenge of aligning them with diverse values and preferences. Direct Preference Optimization (DPO) is central to alignment but constrained by fixed divergences and limited feature transformations. We propose DPO-Kernels, which integrates kernel methods to address these issues through four key contributions: (i) Kernelized Representations with polynomial, RBF, Mahalanobis, and spectral kernels for richer transformations, plus a hybrid loss combining embedding-based and probability-based objectives; (ii) Divergence Alternatives (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein, and f-divergences) for greater stability; (iii) Data-Driven Selection metrics that automatically choose the best kernel-divergence pair; and (iv) a Hierarchical Mixture of Kernels for both local precision and global modeling. Evaluations on 12 datasets demonstrate state-of-the-art performance in factuality, safety, reasoning, and instruction following. Grounded in Heavy-Tailed Self-Regularization, DPO-Kernels maintains robust generalization for LLMs, offering a comprehensive resource for further alignment research.

Summary

AI-Generated Summary

PDF112January 9, 2025