OpenScholar : Synthèse de la littérature scientifique avec des LMs augmentés par la recherche
OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs
November 21, 2024
Auteurs: Akari Asai, Jacqueline He, Rulin Shao, Weijia Shi, Amanpreet Singh, Joseph Chee Chang, Kyle Lo, Luca Soldaini, Sergey Feldman, Mike D'arcy, David Wadden, Matt Latzke, Minyang Tian, Pan Ji, Shengyan Liu, Hao Tong, Bohao Wu, Yanyu Xiong, Luke Zettlemoyer, Graham Neubig, Dan Weld, Doug Downey, Wen-tau Yih, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI
Résumé
Le progrès scientifique dépend de la capacité des chercheurs à synthétiser le corpus croissant de la littérature. Les grands modèles de langage (LM) peuvent-ils aider les scientifiques dans cette tâche ? Nous présentons OpenScholar, un LM à récupération augmentée spécialisé qui répond aux requêtes scientifiques en identifiant des passages pertinents parmi 45 millions d'articles en libre accès et en synthétisant des réponses appuyées par des citations. Pour évaluer OpenScholar, nous développons ScholarQABench, le premier banc d'essai multi-domaines à grande échelle pour la recherche documentaire, comprenant 2 967 requêtes rédigées par des experts et 208 réponses détaillées dans les domaines de l'informatique, de la physique, des neurosciences et de la biomédecine. Sur ScholarQABench, OpenScholar-8B surpasse GPT-4o de 5 % et PaperQA2 de 7 % en termes de justesse, malgré sa taille plus réduite en tant que modèle ouvert. Alors que GPT-4o hallucine des citations de 78 à 90 % du temps, OpenScholar atteint une précision des citations comparable à celle des experts humains. La base de données, le récupérateur et la boucle d'inférence à auto-rétroaction d'OpenScholar améliorent également les LM prêts à l'emploi : par exemple, OpenScholar-GPT4o améliore la justesse de GPT-4o de 12 %. Dans les évaluations humaines, les experts ont préféré les réponses d'OpenScholar-8B et d'OpenScholar-GPT4o aux réponses rédigées par des experts 51 % et 70 % du temps, respectivement, par rapport aux 32 % de GPT4o. Nous mettons en open source l'ensemble de notre code, des modèles, de la base de données, des données et une démonstration publique.
English
Scientific progress depends on researchers' ability to synthesize the growing
body of literature. Can large language models (LMs) assist scientists in this
task? We introduce OpenScholar, a specialized retrieval-augmented LM that
answers scientific queries by identifying relevant passages from 45 million
open-access papers and synthesizing citation-backed responses. To evaluate
OpenScholar, we develop ScholarQABench, the first large-scale multi-domain
benchmark for literature search, comprising 2,967 expert-written queries and
208 long-form answers across computer science, physics, neuroscience, and
biomedicine. On ScholarQABench, OpenScholar-8B outperforms GPT-4o by 5% and
PaperQA2 by 7% in correctness, despite being a smaller, open model. While GPT4o
hallucinates citations 78 to 90% of the time, OpenScholar achieves citation
accuracy on par with human experts. OpenScholar's datastore, retriever, and
self-feedback inference loop also improves off-the-shelf LMs: for instance,
OpenScholar-GPT4o improves GPT-4o's correctness by 12%. In human evaluations,
experts preferred OpenScholar-8B and OpenScholar-GPT4o responses over
expert-written ones 51% and 70% of the time, respectively, compared to GPT4o's
32%. We open-source all of our code, models, datastore, data and a public demo.Summary
AI-Generated Summary