ChatPaper.aiChatPaper

FSPO: Оптимизация предпочтений на основе небольшого количества данных с использованием синтетических данных о предпочтениях в LLMs обеспечивает эффективную персонализацию для реальных пользователей.

FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

February 26, 2025
Авторы: Anikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn
cs.AI

Аннотация

Эффективная персонализация LLM является критически важной для широкого спектра приложений, взаимодействующих с пользователем, таких как виртуальные ассистенты и кураторы контента. Вдохновленные сильными возможностями контекстного обучения LLM, мы предлагаем подход Few-Shot Preference Optimization (FSPO), который переосмысливает моделирование вознаграждения как проблему мета-обучения. В рамках этой концепции LLM учится быстро адаптироваться к пользователю через несколько помеченных предпочтений этого пользователя, создавая персонализированную функцию вознаграждения для них. Кроме того, поскольку реальные данные о предпочтениях являются редкими и сложными для сбора в масштабе, мы предлагаем тщательно продуманные выборы для создания синтетических наборов данных о предпочтениях для персонализации, генерируя более 1 млн синтетических персонализированных предпочтений с использованием общедоступных LLM. В частности, для успешного переноса с синтетических данных на реальных пользователей мы считаем важным, чтобы данные проявляли как высокое разнообразие, так и последовательную, самосогласованную структуру. Мы оцениваем FSPO на персонализированной генерации открытого текста для до 1,500 синтетических пользователей в трех областях: обзоры фильмов, педагогическая адаптация на основе образовательного фона и общие ответы на вопросы, а также с контролируемым исследованием с участием людей. В целом, FSPO достигает победы в 87% случаев в Alpaca Eval в среднем при генерации ответов, персонализированных для синтетических пользователей, и в 72% случаев с реальными людьми при ответах на открытые вопросы.
English
Effective personalization of LLMs is critical for a broad range of user-interfacing applications such as virtual assistants and content curation. Inspired by the strong in-context learning capabilities of LLMs, we propose Few-Shot Preference Optimization (FSPO), which reframes reward modeling as a meta-learning problem. Under this framework, an LLM learns to quickly adapt to a user via a few labeled preferences from that user, constructing a personalized reward function for them. Additionally, since real-world preference data is scarce and challenging to collect at scale, we propose careful design choices to construct synthetic preference datasets for personalization, generating over 1M synthetic personalized preferences using publicly available LLMs. In particular, to successfully transfer from synthetic data to real users, we find it crucial for the data to exhibit both high diversity and coherent, self-consistent structure. We evaluate FSPO on personalized open-ended generation for up to 1,500 synthetic users across across three domains: movie reviews, pedagogical adaptation based on educational background, and general question answering, along with a controlled human study. Overall, FSPO achieves an 87% Alpaca Eval winrate on average in generating responses that are personalized to synthetic users and a 72% winrate with real human users in open-ended question answering.

Summary

AI-Generated Summary

PDF52February 27, 2025