OpenScholar: Het synthetiseren van wetenschappelijke literatuur met retrieval-augmented taalmodellen
OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs
November 21, 2024
Auteurs: Akari Asai, Jacqueline He, Rulin Shao, Weijia Shi, Amanpreet Singh, Joseph Chee Chang, Kyle Lo, Luca Soldaini, Sergey Feldman, Mike D'arcy, David Wadden, Matt Latzke, Minyang Tian, Pan Ji, Shengyan Liu, Hao Tong, Bohao Wu, Yanyu Xiong, Luke Zettlemoyer, Graham Neubig, Dan Weld, Doug Downey, Wen-tau Yih, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI
Samenvatting
Wetenschappelijke vooruitgang hangt af van het vermogen van onderzoekers om de groeiende hoeveelheid literatuur samen te vatten. Kunnen grote taalmodellen (LM's) wetenschappers helpen bij deze taak? We introduceren OpenScholar, een gespecialiseerd opvraag-verrijkt LM dat wetenschappelijke vragen beantwoordt door relevante passages te identificeren uit 45 miljoen open-access papers en citatie-ondersteunde antwoorden te synthetiseren. Om OpenScholar te evalueren, ontwikkelen we ScholarQABench, de eerste grootschalige multi-domein benchmark voor literatuuronderzoek, bestaande uit 2.967 door experts geschreven vragen en 208 lange antwoorden over informatica, natuurkunde, neurowetenschappen en biogeneeskunde. Op ScholarQABench presteert OpenScholar-8B beter dan GPT-4o met 5% en PaperQA2 met 7% in correctheid, ondanks dat het een kleiner, open model is. Terwijl GPT-4o 78 tot 90% van de tijd citaten verzint, behaalt OpenScholar citatie-accuratesse op het niveau van menselijke experts. OpenScholar's gegevensopslag, opvragingsmechanisme en zelf-feedback inferentielus verbeteren ook standaard LM's: bijvoorbeeld, OpenScholar-GPT4o verbetert de correctheid van GPT-4o met 12%. In menselijke evaluaties gaven experts de voorkeur aan de reacties van OpenScholar-8B en OpenScholar-GPT4o boven door experts geschreven antwoorden respectievelijk 51% en 70% van de tijd, in vergelijking met 32% voor GPT4o. We maken al onze code, modellen, gegevensopslag, data en een publieke demo open-source.
English
Scientific progress depends on researchers' ability to synthesize the growing
body of literature. Can large language models (LMs) assist scientists in this
task? We introduce OpenScholar, a specialized retrieval-augmented LM that
answers scientific queries by identifying relevant passages from 45 million
open-access papers and synthesizing citation-backed responses. To evaluate
OpenScholar, we develop ScholarQABench, the first large-scale multi-domain
benchmark for literature search, comprising 2,967 expert-written queries and
208 long-form answers across computer science, physics, neuroscience, and
biomedicine. On ScholarQABench, OpenScholar-8B outperforms GPT-4o by 5% and
PaperQA2 by 7% in correctness, despite being a smaller, open model. While GPT4o
hallucinates citations 78 to 90% of the time, OpenScholar achieves citation
accuracy on par with human experts. OpenScholar's datastore, retriever, and
self-feedback inference loop also improves off-the-shelf LMs: for instance,
OpenScholar-GPT4o improves GPT-4o's correctness by 12%. In human evaluations,
experts preferred OpenScholar-8B and OpenScholar-GPT4o responses over
expert-written ones 51% and 70% of the time, respectively, compared to GPT4o's
32%. We open-source all of our code, models, datastore, data and a public demo.Summary
AI-Generated Summary