ResearchBench: Bewertung von LLMs in der wissenschaftlichen Entdeckung durch auf Inspiration basierende Aufgabenzerlegung
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition
March 27, 2025
Autoren: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben Potenzial gezeigt, die wissenschaftliche Forschung zu unterstützen, doch ihre Fähigkeit, hochwertige Forschungshypothesen zu entdecken, bleibt aufgrund des Mangels an einem speziellen Benchmark unerforscht. Um diese Lücke zu schließen, führen wir den ersten groß angelegten Benchmark ein, der LLMs mit einem nahezu ausreichenden Satz von Teilaufgaben der wissenschaftlichen Entdeckung evaluiert: Inspirationsabruf, Hypothesenformulierung und Hypothesenbewertung. Wir entwickeln ein automatisiertes Framework, das kritische Komponenten – Forschungsfragen, Hintergrundrecherchen, Inspirationen und Hypothesen – aus wissenschaftlichen Arbeiten über 12 Disziplinen hinweg extrahiert, wobei die Genauigkeit durch Expertenvalidierung bestätigt wird. Um Datenkontamination zu vermeiden, konzentrieren wir uns ausschließlich auf Arbeiten, die im Jahr 2024 veröffentlicht wurden, und stellen so sicher, dass die Überschneidung mit den Vortrainingsdaten der LLMs minimal ist. Unsere Auswertung zeigt, dass LLMs beim Abrufen von Inspirationen, einer Out-of-Distribution-Aufgabe, gut abschneiden, was auf ihre Fähigkeit hinweist, neuartige Wissenszusammenhänge aufzudecken. Dies positioniert LLMs als „Forschungshypothesen-Minen“, die in der Lage sind, die automatisierte wissenschaftliche Entdeckung zu erleichtern, indem sie innovative Hypothesen in großem Umfang mit minimalem menschlichen Eingriff generieren.
English
Large language models (LLMs) have demonstrated potential in assisting
scientific research, yet their ability to discover high-quality research
hypotheses remains unexamined due to the lack of a dedicated benchmark. To
address this gap, we introduce the first large-scale benchmark for evaluating
LLMs with a near-sufficient set of sub-tasks of scientific discovery:
inspiration retrieval, hypothesis composition, and hypothesis ranking. We
develop an automated framework that extracts critical components - research
questions, background surveys, inspirations, and hypotheses - from scientific
papers across 12 disciplines, with expert validation confirming its accuracy.
To prevent data contamination, we focus exclusively on papers published in
2024, ensuring minimal overlap with LLM pretraining data. Our evaluation
reveals that LLMs perform well in retrieving inspirations, an
out-of-distribution task, suggesting their ability to surface novel knowledge
associations. This positions LLMs as "research hypothesis mines", capable of
facilitating automated scientific discovery by generating innovative hypotheses
at scale with minimal human intervention.Summary
AI-Generated Summary