OpenScholar: Synthese von wissenschaftlicher Literatur mit abrufgestützten Sprachmodellen
OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs
November 21, 2024
Autoren: Akari Asai, Jacqueline He, Rulin Shao, Weijia Shi, Amanpreet Singh, Joseph Chee Chang, Kyle Lo, Luca Soldaini, Sergey Feldman, Mike D'arcy, David Wadden, Matt Latzke, Minyang Tian, Pan Ji, Shengyan Liu, Hao Tong, Bohao Wu, Yanyu Xiong, Luke Zettlemoyer, Graham Neubig, Dan Weld, Doug Downey, Wen-tau Yih, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI
Zusammenfassung
Der wissenschaftliche Fortschritt hängt von der Fähigkeit der Forscher ab, die wachsende Literatur zu synthetisieren. Können große Sprachmodelle (LMs) Wissenschaftlern bei dieser Aufgabe helfen? Wir stellen OpenScholar vor, ein spezialisiertes abrufgestütztes LM, das wissenschaftliche Anfragen beantwortet, indem es relevante Passagen aus 45 Millionen frei zugänglichen Papieren identifiziert und zitierungsunterstützte Antworten synthetisiert. Zur Bewertung von OpenScholar entwickeln wir ScholarQABench, den ersten groß angelegten Multi-Domänen-Benchmark für Literatursuche, bestehend aus 2.967 von Experten verfassten Anfragen und 208 ausführlichen Antworten aus den Bereichen Informatik, Physik, Neurowissenschaften und Biomedizin. Auf ScholarQABench übertrifft OpenScholar-8B GPT-4o um 5% und PaperQA2 um 7% in der Korrektheit, obwohl es sich um ein kleineres, offenes Modell handelt. Während GPT-4o 78 bis 90% der Zeit Zitate erfindet, erreicht OpenScholar eine Zitiergenauigkeit auf Augenhöhe mit menschlichen Experten. OpenScholars Datenbank, Abrufer und Selbst-Feedback-Inferenzschleife verbessern auch Standard-LMs: beispielsweise verbessert OpenScholar-GPT4o die Korrektheit von GPT-4o um 12%. In menschlichen Bewertungen bevorzugten Experten die Antworten von OpenScholar-8B und OpenScholar-GPT4o gegenüber von Experten verfassten Antworten 51% bzw. 70% der Zeit im Vergleich zu GPT4o mit 32%. Wir stellen unseren gesamten Code, Modelle, Datenbank, Daten und eine öffentliche Demo als Open Source zur Verfügung.
English
Scientific progress depends on researchers' ability to synthesize the growing
body of literature. Can large language models (LMs) assist scientists in this
task? We introduce OpenScholar, a specialized retrieval-augmented LM that
answers scientific queries by identifying relevant passages from 45 million
open-access papers and synthesizing citation-backed responses. To evaluate
OpenScholar, we develop ScholarQABench, the first large-scale multi-domain
benchmark for literature search, comprising 2,967 expert-written queries and
208 long-form answers across computer science, physics, neuroscience, and
biomedicine. On ScholarQABench, OpenScholar-8B outperforms GPT-4o by 5% and
PaperQA2 by 7% in correctness, despite being a smaller, open model. While GPT4o
hallucinates citations 78 to 90% of the time, OpenScholar achieves citation
accuracy on par with human experts. OpenScholar's datastore, retriever, and
self-feedback inference loop also improves off-the-shelf LMs: for instance,
OpenScholar-GPT4o improves GPT-4o's correctness by 12%. In human evaluations,
experts preferred OpenScholar-8B and OpenScholar-GPT4o responses over
expert-written ones 51% and 70% of the time, respectively, compared to GPT4o's
32%. We open-source all of our code, models, datastore, data and a public demo.Summary
AI-Generated Summary