검색 증강 생성을 위한 일반적인 지시 따르기 정렬 방향으로
Toward General Instruction-Following Alignment for Retrieval-Augmented Generation
October 12, 2024
저자: Guanting Dong, Xiaoshuai Song, Yutao Zhu, Runqi Qiao, Zhicheng Dou, Ji-Rong Wen
cs.AI
초록
자연어 지시에 따르는 것은 검색 증강 생성 (RAG) 시스템의 효과적인 적용에 중요합니다. 대형 언어 모델 (LLM)의 최근 발전에도 불구하고, RAG 도메인 내에서의 지시 따르기 (IF) 정렬을 평가하고 개선하는 연구는 제한적입니다. 이 문제를 해결하기 위해 우리는 VIF-RAG를 제안합니다. 이는 RAG 시스템 내에서 지시 따르기 정렬을 자동화하고 확장 가능하며 검증 가능한 합성 파이프라인으로, 최초로 제안되었습니다. 우리는 먼저 수동으로 최소한의 원자 지시문 (<100) 세트를 만들고 복잡한 지시를 합성하고 검증하기 위한 조합 규칙을 개발합니다. 그런 다음 감독 모델을 사용하여 지시문을 재작성하고 동시에 Python 실행기를 통해 지시 품질을 자동으로 확인하는 코드를 생성합니다. 마지막으로 이러한 지시문을 포괄적인 RAG 및 일반 데이터 샘플과 통합하여 자동화 프로세스를 통해 고품질 VIF-RAG-QA 데이터 세트 (>100k)로 확장합니다. RAG 시스템의 지시 따르기 자동 평가 간격을 좁히기 위해 약 3천 개의 테스트 샘플을 포함하며 일반 지시 제약 조건 22가지 및 4가지 지식 집약적 QA 데이터 세트를 다루는 FollowRAG 벤치마크를 소개합니다. 견고한 파이프라인 설계로 인해 FollowRAG는 다양한 RAG 벤치마크와 원활하게 통합될 수 있습니다. FollowRAG와 LLM의 여덟 가지 널리 사용되는 IF 및 기본 역량 벤치마크를 사용하여 VIF-RAG가 일반 지시 제약 조건의 넓은 범위에 걸쳐 LLM 성능을 현저히 향상시키는 동시에 RAG 시나리오에서 능력을 효과적으로 활용하는 것을 보여줍니다. 추가 분석은 RAG 시스템에서 IF 정렬을 달성하기 위한 실용적인 통찰을 제공합니다. 우리의 코드와 데이터 세트는 https://FollowRAG.github.io에서 공개되었습니다.
English
Following natural instructions is crucial for the effective application of
Retrieval-Augmented Generation (RAG) systems. Despite recent advancements in
Large Language Models (LLMs), research on assessing and improving
instruction-following (IF) alignment within the RAG domain remains limited. To
address this issue, we propose VIF-RAG, the first automated, scalable, and
verifiable synthetic pipeline for instruction-following alignment in RAG
systems. We start by manually crafting a minimal set of atomic instructions
(<100) and developing combination rules to synthesize and verify complex
instructions for a seed set. We then use supervised models for instruction
rewriting while simultaneously generating code to automate the verification of
instruction quality via a Python executor. Finally, we integrate these
instructions with extensive RAG and general data samples, scaling up to a
high-quality VIF-RAG-QA dataset (>100k) through automated processes. To further
bridge the gap in instruction-following auto-evaluation for RAG systems, we
introduce FollowRAG Benchmark, which includes approximately 3K test samples,
covering 22 categories of general instruction constraints and four
knowledge-intensive QA datasets. Due to its robust pipeline design, FollowRAG
can seamlessly integrate with different RAG benchmarks. Using FollowRAG and
eight widely-used IF and foundational abilities benchmarks for LLMs, we
demonstrate that VIF-RAG markedly enhances LLM performance across a broad range
of general instruction constraints while effectively leveraging its
capabilities in RAG scenarios. Further analysis offers practical insights for
achieving IF alignment in RAG systems. Our code and datasets are released at
https://FollowRAG.github.io.Summary
AI-Generated Summary