ChatPaper.aiChatPaper

OneRec: Объединение извлечения и ранжирования с генеративной рекомендательной системой и итеративным согласованием предпочтений

OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment

February 26, 2025
Авторы: Jiaxin Deng, Shiyao Wang, Kuo Cai, Lejian Ren, Qigen Hu, Weifeng Ding, Qiang Luo, Guorui Zhou
cs.AI

Аннотация

В последнее время генеративные рекомендательные системы, основанные на поиске, стали перспективной парадигмой. Однако большинство современных рекомендательных систем используют стратегию "извлечение и ранжирование", где генеративная модель выступает лишь в роли селектора на этапе извлечения. В данной статье мы предлагаем OneRec, который заменяет каскадную структуру обучения на единую генеративную модель. Насколько нам известно, это первая end-to-end генеративная модель, которая значительно превосходит современные сложные и тщательно разработанные рекомендательные системы в реальных сценариях. В частности, OneRec включает: 1) структуру "кодировщик-декодировщик", которая кодирует последовательности исторического поведения пользователя и постепенно декодирует видео, которые могут заинтересовать пользователя. Мы используем разреженную смесь экспертов (MoE) для масштабирования емкости модели без пропорционального увеличения вычислительных затрат. 2) подход к генерации на уровне сессии. В отличие от традиционного предсказания следующего элемента, мы предлагаем генерацию на уровне сессии, которая является более элегантной и контекстуально согласованной по сравнению с пошаговой генерацией, зависящей от ручных правил для корректного объединения результатов. 3) модуль итеративного согласования предпочтений в сочетании с оптимизацией прямых предпочтений (DPO) для повышения качества генерируемых результатов. В отличие от DPO в NLP, рекомендательная система обычно имеет только одну возможность отобразить результаты для каждого запроса пользователя, что делает невозможным одновременное получение положительных и отрицательных образцов. Для решения этой проблемы мы разработали модель вознаграждения для имитации генерации пользователя и настройки стратегии выборки. Многочисленные эксперименты показали, что ограниченное количество образцов DPO может согласовать предпочтения пользователя и значительно улучшить качество генерируемых результатов. Мы внедрили OneRec в основной сценарий Kuaishou, достигнув увеличения времени просмотра на 1,6%, что является существенным улучшением.
English
Recently, generative retrieval-based recommendation systems have emerged as a promising paradigm. However, most modern recommender systems adopt a retrieve-and-rank strategy, where the generative model functions only as a selector during the retrieval stage. In this paper, we propose OneRec, which replaces the cascaded learning framework with a unified generative model. To the best of our knowledge, this is the first end-to-end generative model that significantly surpasses current complex and well-designed recommender systems in real-world scenarios. Specifically, OneRec includes: 1) an encoder-decoder structure, which encodes the user's historical behavior sequences and gradually decodes the videos that the user may be interested in. We adopt sparse Mixture-of-Experts (MoE) to scale model capacity without proportionally increasing computational FLOPs. 2) a session-wise generation approach. In contrast to traditional next-item prediction, we propose a session-wise generation, which is more elegant and contextually coherent than point-by-point generation that relies on hand-crafted rules to properly combine the generated results. 3) an Iterative Preference Alignment module combined with Direct Preference Optimization (DPO) to enhance the quality of the generated results. Unlike DPO in NLP, a recommendation system typically has only one opportunity to display results for each user's browsing request, making it impossible to obtain positive and negative samples simultaneously. To address this limitation, We design a reward model to simulate user generation and customize the sampling strategy. Extensive experiments have demonstrated that a limited number of DPO samples can align user interest preferences and significantly improve the quality of generated results. We deployed OneRec in the main scene of Kuaishou, achieving a 1.6\% increase in watch-time, which is a substantial improvement.

Summary

AI-Generated Summary

PDF212March 4, 2025