IFIR: Комплексный эталон для оценки выполнения инструкций в области экспертного информационного поиска
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval
March 6, 2025
Авторы: Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao
cs.AI
Аннотация
Мы представляем IFIR — первый комплексный бенчмарк, разработанный для оценки способности следовать инструкциям в задачах информационного поиска (IR) в экспертных областях. IFIR включает 2426 высококачественных примеров и охватывает восемь подмножеств в четырех специализированных областях: финансы, право, здравоохранение и научная литература. Каждое подмножество решает одну или несколько задач поиска, специфичных для конкретной области, воспроизводя реальные сценарии, где использование адаптированных инструкций имеет критическое значение. IFIR позволяет проводить детальный анализ способностей моделей следовать инструкциям, включая инструкции различного уровня сложности. Мы также предлагаем новый метод оценки на основе языковых моделей (LLM), который обеспечивает более точную и надежную оценку производительности моделей в следовании инструкциям. В результате масштабных экспериментов с 15 передовыми моделями поиска, включая модели на основе LLM, наши результаты показывают, что современные модели сталкиваются с серьезными трудностями в эффективном выполнении сложных, специфичных для домена инструкций. Мы также проводим углубленный анализ, чтобы выделить эти ограничения, предлагая ценные инсайты для направления будущих разработок в области поисковых систем.
English
We introduce IFIR, the first comprehensive benchmark designed to evaluate
instruction-following information retrieval (IR) in expert domains. IFIR
includes 2,426 high-quality examples and covers eight subsets across four
specialized domains: finance, law, healthcare, and science literature. Each
subset addresses one or more domain-specific retrieval tasks, replicating
real-world scenarios where customized instructions are critical. IFIR enables a
detailed analysis of instruction-following retrieval capabilities by
incorporating instructions at different levels of complexity. We also propose a
novel LLM-based evaluation method to provide a more precise and reliable
assessment of model performance in following instructions. Through extensive
experiments on 15 frontier retrieval models, including those based on LLMs, our
results reveal that current models face significant challenges in effectively
following complex, domain-specific instructions. We further provide in-depth
analyses to highlight these limitations, offering valuable insights to guide
future advancements in retriever development.Summary
AI-Generated Summary