OpenScholar: 검색 보강 언어 모델을 활용한 과학 문헌 통합
OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs
November 21, 2024
저자: Akari Asai, Jacqueline He, Rulin Shao, Weijia Shi, Amanpreet Singh, Joseph Chee Chang, Kyle Lo, Luca Soldaini, Sergey Feldman, Mike D'arcy, David Wadden, Matt Latzke, Minyang Tian, Pan Ji, Shengyan Liu, Hao Tong, Bohao Wu, Yanyu Xiong, Luke Zettlemoyer, Graham Neubig, Dan Weld, Doug Downey, Wen-tau Yih, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI
초록
과학적 진보는 연구자들이 점점 더 많아지는 문헌 자료를 종합하는 능력에 달려있습니다. 대형 언어 모델(LMs)이 이 작업을 지원할 수 있을까요? 우리는 OpenScholar를 소개합니다. 이는 4,500만 개의 공개 논문에서 관련 단락을 식별하고 인용을 뒷받침한 답변을 종합하여 과학적 쿼리에 답변하는 특수한 검색 보강 LM입니다. OpenScholar를 평가하기 위해 우리는 ScholarQABench를 개발했습니다. 이는 컴퓨터 과학, 물리학, 신경과학 및 생명 과학 분야의 2,967개 전문가가 작성한 쿼리와 208개의 장문 답변을 포함하는 최초의 대규모 다양한 도메인 벤치마크입니다. ScholarQABench에서 OpenScholar-8B는 GPT-4o보다 5% 높은 정확도를 보이며 PaperQA2보다 7% 우수합니다. GPT-4o가 대부분의 시간 동안 인용을 환각하는 반면, OpenScholar는 인용 정확도 면에서 인간 전문가와 동등한 성과를 달성합니다. OpenScholar의 데이터 저장소, 검색기 및 자체 피드백 추론 루프는 기본 LMs를 개선합니다. 예를 들어, OpenScholar-GPT4o는 GPT-4o의 정확도를 12% 향상시킵니다. 전문가 평가에서 전문가들은 GPT4o의 32% 대비 OpenScholar-8B 및 OpenScholar-GPT4o 답변을 각각 51% 및 70% 선호했습니다. 우리는 모든 코드, 모델, 데이터 저장소, 데이터 및 공개 데모를 오픈 소스로 제공합니다.
English
Scientific progress depends on researchers' ability to synthesize the growing
body of literature. Can large language models (LMs) assist scientists in this
task? We introduce OpenScholar, a specialized retrieval-augmented LM that
answers scientific queries by identifying relevant passages from 45 million
open-access papers and synthesizing citation-backed responses. To evaluate
OpenScholar, we develop ScholarQABench, the first large-scale multi-domain
benchmark for literature search, comprising 2,967 expert-written queries and
208 long-form answers across computer science, physics, neuroscience, and
biomedicine. On ScholarQABench, OpenScholar-8B outperforms GPT-4o by 5% and
PaperQA2 by 7% in correctness, despite being a smaller, open model. While GPT4o
hallucinates citations 78 to 90% of the time, OpenScholar achieves citation
accuracy on par with human experts. OpenScholar's datastore, retriever, and
self-feedback inference loop also improves off-the-shelf LMs: for instance,
OpenScholar-GPT4o improves GPT-4o's correctness by 12%. In human evaluations,
experts preferred OpenScholar-8B and OpenScholar-GPT4o responses over
expert-written ones 51% and 70% of the time, respectively, compared to GPT4o's
32%. We open-source all of our code, models, datastore, data and a public demo.Summary
AI-Generated Summary