PaSa: Een LLM-agent voor uitgebreid zoeken naar academische papers

Samenvatting

We introduceren PaSa, een geavanceerde Paper Search-agent aangedreven door grote taalmodellen. PaSa kan autonoom een reeks beslissingen nemen, waaronder het oproepen van zoekhulpmiddelen, het lezen van papers en het selecteren van relevante referenties, om uiteindelijk uitgebreide en nauwkeurige resultaten te verkrijgen voor complexe wetenschappelijke vragen. We optimaliseren PaSa met behulp van reinforcement learning met een synthetische dataset, AutoScholarQuery, die 35k fijnmazige academische vragen en bijbehorende papers bevat afkomstig van toptijdschriftpublicaties over kunstmatige intelligentie. Daarnaast ontwikkelen we RealScholarQuery, een benchmark die echte academische vragen verzamelt om de prestaties van PaSa in realistischere scenario's te beoordelen. Ondanks dat PaSa is getraind op synthetische gegevens, presteert het aanzienlijk beter dan bestaande baselines op RealScholarQuery, waaronder Google, Google Scholar, Google met GPT-4 voor geherformuleerde vragen, chatGPT (zoekmogelijkheden ingeschakeld GPT-4o), GPT-o1, en PaSa-GPT-4o (PaSa geïmplementeerd door GPT-4o te activeren). Opmerkelijk genoeg overtreft PaSa-7B de beste op Google gebaseerde baseline, Google met GPT-4o, met 37.78% in recall@20 en 39.90% in recall@50. Het overtreft ook PaSa-GPT-4o met 30.36% in recall en 4.25% in precisie. Het model, de datasets en de code zijn beschikbaar op https://github.com/bytedance/pasa.

English

We introduce PaSa, an advanced Paper Search agent powered by large language models. PaSa can autonomously make a series of decisions, including invoking search tools, reading papers, and selecting relevant references, to ultimately obtain comprehensive and accurate results for complex scholarly queries. We optimize PaSa using reinforcement learning with a synthetic dataset, AutoScholarQuery, which includes 35k fine-grained academic queries and corresponding papers sourced from top-tier AI conference publications. Additionally, we develop RealScholarQuery, a benchmark collecting real-world academic queries to assess PaSa performance in more realistic scenarios. Despite being trained on synthetic data, PaSa significantly outperforms existing baselines on RealScholarQuery, including Google, Google Scholar, Google with GPT-4 for paraphrased queries, chatGPT (search-enabled GPT-4o), GPT-o1, and PaSa-GPT-4o (PaSa implemented by prompting GPT-4o). Notably, PaSa-7B surpasses the best Google-based baseline, Google with GPT-4o, by 37.78% in recall@20 and 39.90% in recall@50. It also exceeds PaSa-GPT-4o by 30.36% in recall and 4.25% in precision. Model, datasets, and code are available at https://github.com/bytedance/pasa.

PaSa: Een LLM-agent voor uitgebreid zoeken naar academische papers

PaSa: An LLM Agent for Comprehensive Academic Paper Search

Samenvatting

Summary

Support