OpenScholar: Sintetizzare la letteratura scientifica con LM potenziati dal recupero

OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs

November 21, 2024
Autori: Akari Asai, Jacqueline He, Rulin Shao, Weijia Shi, Amanpreet Singh, Joseph Chee Chang, Kyle Lo, Luca Soldaini, Sergey Feldman, Mike D'arcy, David Wadden, Matt Latzke, Minyang Tian, Pan Ji, Shengyan Liu, Hao Tong, Bohao Wu, Yanyu Xiong, Luke Zettlemoyer, Graham Neubig, Dan Weld, Doug Downey, Wen-tau Yih, Pang Wei Koh, Hannaneh Hajishirzi
cs.AI

Abstract

Il progresso scientifico dipende dalla capacità dei ricercatori di sintetizzare il crescente corpus di letteratura. Possono i grandi modelli linguistici (LM) assistere gli scienziati in questo compito? Presentiamo OpenScholar, un LM di recupero specializzato che risponde a interrogazioni scientifiche identificando passaggi rilevanti da 45 milioni di articoli in accesso aperto e sintetizzando risposte supportate da citazioni. Per valutare OpenScholar, sviluppiamo ScholarQABench, il primo benchmark multi-dominio su larga scala per la ricerca di letteratura, comprendente 2.967 interrogazioni scritte da esperti e 208 risposte di lunghezza estesa nei settori dell'informatica, della fisica, delle neuroscienze e della biomedicina. Su ScholarQABench, OpenScholar-8B supera GPT-4o del 5% e PaperQA2 del 7% in correttezza, nonostante sia un modello più piccolo e aperto. Mentre GPT-4o produce citazioni erronee dal 78 al 90% delle volte, OpenScholar raggiunge un'accuratezza delle citazioni paragonabile a quella degli esperti umani. Il datastore, il recupero e il ciclo di feedback automatico di OpenScholar migliorano anche i LM pronti all'uso: ad esempio, OpenScholar-GPT4o migliora la correttezza di GPT-4o del 12%. Nelle valutazioni umane, gli esperti hanno preferito le risposte di OpenScholar-8B e OpenScholar-GPT4o rispetto a quelle scritte dagli esperti il 51% e il 70% delle volte, rispettivamente, rispetto al 32% di GPT-4o. Mettiamo a disposizione tutto il nostro codice, modelli, datastore, dati e una demo pubblica in open source.
English
Scientific progress depends on researchers' ability to synthesize the growing body of literature. Can large language models (LMs) assist scientists in this task? We introduce OpenScholar, a specialized retrieval-augmented LM that answers scientific queries by identifying relevant passages from 45 million open-access papers and synthesizing citation-backed responses. To evaluate OpenScholar, we develop ScholarQABench, the first large-scale multi-domain benchmark for literature search, comprising 2,967 expert-written queries and 208 long-form answers across computer science, physics, neuroscience, and biomedicine. On ScholarQABench, OpenScholar-8B outperforms GPT-4o by 5% and PaperQA2 by 7% in correctness, despite being a smaller, open model. While GPT4o hallucinates citations 78 to 90% of the time, OpenScholar achieves citation accuracy on par with human experts. OpenScholar's datastore, retriever, and self-feedback inference loop also improves off-the-shelf LMs: for instance, OpenScholar-GPT4o improves GPT-4o's correctness by 12%. In human evaluations, experts preferred OpenScholar-8B and OpenScholar-GPT4o responses over expert-written ones 51% and 70% of the time, respectively, compared to GPT4o's 32%. We open-source all of our code, models, datastore, data and a public demo.

Summary

AI-Generated Summary

PDF302November 22, 2024