Qilin: Мультимодальный набор данных для информационного поиска с пользовательскими сессиями на уровне приложений
Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions
March 1, 2025
Авторы: Jia Chen, Qian Dong, Haitao Li, Xiaohui He, Yan Gao, Shaosheng Cao, Yi Wu, Ping Yang, Chen Xu, Yao Hu, Qingyao Ai, Yiqun Liu
cs.AI
Аннотация
Сообщества, создающие пользовательский контент (UGC), особенно те, которые включают мультимодальный контент, улучшают пользовательский опыт за счет интеграции визуальной и текстовой информации в результаты (или элементы). Задача улучшения пользовательского опыта в сложных системах с услугами поиска и рекомендаций (S&R) привлекает значительное внимание как академических кругов, так и индустрии в последние годы. Однако отсутствие высококачественных наборов данных ограничивает прогресс исследований в области мультимодального S&R. Чтобы удовлетворить растущую потребность в разработке более совершенных услуг S&R, мы представляем новый набор данных для мультимодального поиска информации, названный Qilin. Этот набор данных собран с платформы Xiaohongshu, популярной социальной сети с более чем 300 миллионами активных пользователей в месяц и средним уровнем проникновения поиска свыше 70%. В отличие от существующих наборов данных, Qilin предлагает всеобъемлющую коллекцию пользовательских сессий с разнородными результатами, такими как заметки с изображениями и текстом, видеозаметки, коммерческие заметки и прямые ответы, что способствует разработке передовых мультимодальных нейронных моделей поиска в различных условиях задач. Чтобы лучше моделировать удовлетворенность пользователей и поддерживать анализ разнородного поведения пользователей, мы также собираем обширные контекстные сигналы на уровне приложения и подлинные отзывы пользователей. Примечательно, что Qilin содержит предпочитаемые пользователями ответы и связанные с ними результаты для поисковых запросов, активирующих модуль Deep Query Answering (DQA). Это позволяет не только обучать и оценивать конвейер Retrieval-augmented Generation (RAG), но и исследовать, как такой модуль влияет на поведение пользователей при поиске. Благодаря всестороннему анализу и экспериментам мы предоставляем интересные выводы и идеи для дальнейшего улучшения систем S&R. Мы надеемся, что Qilin внесет значительный вклад в развитие мультимодальных платформ с услугами S&R в будущем.
English
User-generated content (UGC) communities, especially those featuring
multimodal content, improve user experiences by integrating visual and textual
information into results (or items). The challenge of improving user
experiences in complex systems with search and recommendation (S\&R) services
has drawn significant attention from both academia and industry these years.
However, the lack of high-quality datasets has limited the research progress on
multimodal S\&R. To address the growing need for developing better S\&R
services, we present a novel multimodal information retrieval dataset in this
paper, namely Qilin. The dataset is collected from Xiaohongshu, a popular
social platform with over 300 million monthly active users and an average
search penetration rate of over 70\%. In contrast to existing datasets,
Qilin offers a comprehensive collection of user sessions with
heterogeneous results like image-text notes, video notes, commercial notes, and
direct answers, facilitating the development of advanced multimodal neural
retrieval models across diverse task settings. To better model user
satisfaction and support the analysis of heterogeneous user behaviors, we also
collect extensive APP-level contextual signals and genuine user feedback.
Notably, Qilin contains user-favored answers and their referred results for
search requests triggering the Deep Query Answering (DQA) module. This allows
not only the training \& evaluation of a Retrieval-augmented Generation (RAG)
pipeline, but also the exploration of how such a module would affect users'
search behavior. Through comprehensive analysis and experiments, we provide
interesting findings and insights for further improving S\&R systems. We hope
that Qilin will significantly contribute to the advancement of
multimodal content platforms with S\&R services in the future.Summary
AI-Generated Summary