ResearchBench: Valutazione delle capacità di scoperta scientifica dei modelli linguistici di grandi dimensioni attraverso la scomposizione dei compiti basata sull'ispirazione
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition
March 27, 2025
Autori: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato potenziale nell'assistere la ricerca scientifica, ma la loro capacità di scoprire ipotesi di ricerca di alta qualità rimane inesplorata a causa della mancanza di un benchmark dedicato. Per colmare questa lacuna, introduciamo il primo benchmark su larga scala per valutare gli LLM con un insieme quasi sufficiente di sotto-attività della scoperta scientifica: recupero di ispirazioni, composizione di ipotesi e classificazione di ipotesi. Sviluppiamo un framework automatizzato che estrae componenti critici - domande di ricerca, revisioni della letteratura, ispirazioni e ipotesi - da articoli scientifici in 12 discipline, con una validazione esperta che ne conferma l'accuratezza. Per prevenire la contaminazione dei dati, ci concentriamo esclusivamente su articoli pubblicati nel 2024, garantendo una sovrapposizione minima con i dati di pre-addestramento degli LLM. La nostra valutazione rivela che gli LLM performano bene nel recupero di ispirazioni, un compito fuori distribuzione, suggerendo la loro capacità di far emergere nuove associazioni di conoscenza. Ciò posiziona gli LLM come "miniere di ipotesi di ricerca", in grado di facilitare la scoperta scientifica automatizzata generando ipotesi innovative su larga scala con un intervento umano minimo.
English
Large language models (LLMs) have demonstrated potential in assisting
scientific research, yet their ability to discover high-quality research
hypotheses remains unexamined due to the lack of a dedicated benchmark. To
address this gap, we introduce the first large-scale benchmark for evaluating
LLMs with a near-sufficient set of sub-tasks of scientific discovery:
inspiration retrieval, hypothesis composition, and hypothesis ranking. We
develop an automated framework that extracts critical components - research
questions, background surveys, inspirations, and hypotheses - from scientific
papers across 12 disciplines, with expert validation confirming its accuracy.
To prevent data contamination, we focus exclusively on papers published in
2024, ensuring minimal overlap with LLM pretraining data. Our evaluation
reveals that LLMs perform well in retrieving inspirations, an
out-of-distribution task, suggesting their ability to surface novel knowledge
associations. This positions LLMs as "research hypothesis mines", capable of
facilitating automated scientific discovery by generating innovative hypotheses
at scale with minimal human intervention.Summary
AI-Generated Summary