Rank1: Вычислительные ресурсы на этапе тестирования для повторного ранжирования в информационном поиске
Rank1: Test-Time Compute for Reranking in Information Retrieval
February 25, 2025
Авторы: Orion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme
cs.AI
Аннотация
Мы представляем Rank1 — первую модель ранжирования, обученную с использованием вычислительных ресурсов на этапе тестирования. Rank1 демонстрирует применимость в задачах поиска использования языковой модели с возможностью рассуждений (например, OpenAI o1, Deepseek R1 и др.) для дистилляции с целью быстрого улучшения производительности меньшей модели. Мы собрали и открыли доступ к набору данных, содержащему более 600 000 примеров трасс рассуждений R1, полученных из запросов и текстов MS MARCO. Модели, обученные на этом наборе данных, показывают: (1) передовые результаты на наборах данных для сложных рассуждений и выполнения инструкций; (2) отличную работу на данных, выходящих за пределы распределения, благодаря способности реагировать на пользовательские запросы; и (3) объяснимые цепочки рассуждений, которые могут быть предоставлены пользователям или системам на основе RAG. Кроме того, мы показываем, что квантованные версии этих моделей сохраняют высокую производительность при меньших затратах вычислительных ресурсов и памяти. В целом, Rank1 демонстрирует, что использование вычислительных ресурсов на этапе тестирования позволяет создать принципиально новый тип объяснимой и эффективной модели ранжирования для поиска.
English
We introduce Rank1, the first reranking model trained to take advantage of
test-time compute. Rank1 demonstrates the applicability within retrieval of
using a reasoning language model (i.e. OpenAI's o1, Deepseek's R1, etc.) for
distillation in order to rapidly improve the performance of a smaller model. We
gather and open-source a dataset of more than 600,000 examples of R1 reasoning
traces from queries and passages in MS MARCO. Models trained on this dataset
show: (1) state-of-the-art performance on advanced reasoning and instruction
following datasets; (2) work remarkably well out of distribution due to the
ability to respond to user-input prompts; and (3) have explainable reasoning
chains that can be given to users or RAG-based systems. Further, we demonstrate
that quantized versions of these models retain strong performance while using
less compute/memory. Overall, Rank1 shows that test-time compute allows for a
fundamentally new type of explainable and performant reranker model for search.Summary
AI-Generated Summary