Qilin: Мультимодальный набор данных для информационного поиска с пользовательскими сессиями на уровне приложений

Аннотация

Сообщества, создающие пользовательский контент (UGC), особенно те, которые включают мультимодальный контент, улучшают пользовательский опыт за счет интеграции визуальной и текстовой информации в результаты (или элементы). Задача улучшения пользовательского опыта в сложных системах с услугами поиска и рекомендаций (S&R) привлекает значительное внимание как академических кругов, так и индустрии в последние годы. Однако отсутствие высококачественных наборов данных ограничивает прогресс исследований в области мультимодального S&R. Чтобы удовлетворить растущую потребность в разработке более совершенных услуг S&R, мы представляем новый набор данных для мультимодального поиска информации, названный Qilin. Этот набор данных собран с платформы Xiaohongshu, популярной социальной сети с более чем 300 миллионами активных пользователей в месяц и средним уровнем проникновения поиска свыше 70%. В отличие от существующих наборов данных, Qilin предлагает всеобъемлющую коллекцию пользовательских сессий с разнородными результатами, такими как заметки с изображениями и текстом, видеозаметки, коммерческие заметки и прямые ответы, что способствует разработке передовых мультимодальных нейронных моделей поиска в различных условиях задач. Чтобы лучше моделировать удовлетворенность пользователей и поддерживать анализ разнородного поведения пользователей, мы также собираем обширные контекстные сигналы на уровне приложения и подлинные отзывы пользователей. Примечательно, что Qilin содержит предпочитаемые пользователями ответы и связанные с ними результаты для поисковых запросов, активирующих модуль Deep Query Answering (DQA). Это позволяет не только обучать и оценивать конвейер Retrieval-augmented Generation (RAG), но и исследовать, как такой модуль влияет на поведение пользователей при поиске. Благодаря всестороннему анализу и экспериментам мы предоставляем интересные выводы и идеи для дальнейшего улучшения систем S&R. Мы надеемся, что Qilin внесет значительный вклад в развитие мультимодальных платформ с услугами S&R в будущем.

English

User-generated content (UGC) communities, especially those featuring multimodal content, improve user experiences by integrating visual and textual information into results (or items). The challenge of improving user experiences in complex systems with search and recommendation (S\&R) services has drawn significant attention from both academia and industry these years. However, the lack of high-quality datasets has limited the research progress on multimodal S\&R. To address the growing need for developing better S\&R services, we present a novel multimodal information retrieval dataset in this paper, namely Qilin. The dataset is collected from Xiaohongshu, a popular social platform with over 300 million monthly active users and an average search penetration rate of over 70\%. In contrast to existing datasets, Qilin offers a comprehensive collection of user sessions with heterogeneous results like image-text notes, video notes, commercial notes, and direct answers, facilitating the development of advanced multimodal neural retrieval models across diverse task settings. To better model user satisfaction and support the analysis of heterogeneous user behaviors, we also collect extensive APP-level contextual signals and genuine user feedback. Notably, Qilin contains user-favored answers and their referred results for search requests triggering the Deep Query Answering (DQA) module. This allows not only the training \& evaluation of a Retrieval-augmented Generation (RAG) pipeline, but also the exploration of how such a module would affect users' search behavior. Through comprehensive analysis and experiments, we provide interesting findings and insights for further improving S\&R systems. We hope that Qilin will significantly contribute to the advancement of multimodal content platforms with S\&R services in the future.

Qilin: Мультимодальный набор данных для информационного поиска с пользовательскими сессиями на уровне приложений

Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions

Аннотация

Summary

Support