LLM-SRBench: Un Nuovo Benchmark per la Scoperta di Equazioni Scientifiche con Modelli Linguistici di Grandi Dimensioni
LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models
April 14, 2025
Autori: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy
cs.AI
Abstract
La scoperta di equazioni scientifiche è un compito fondamentale nella storia del progresso scientifico, poiché consente di derivare le leggi che governano i fenomeni naturali. Recentemente, i Modelli Linguistici di Grande Dimensione (LLM) hanno suscitato interesse per questo compito grazie al loro potenziale di sfruttare le conoscenze scientifiche incorporate per la generazione di ipotesi. Tuttavia, valutare le vere capacità di scoperta di questi metodi rimane una sfida, poiché i benchmark esistenti spesso si basano su equazioni comuni che possono essere memorizzate dagli LLM, portando a metriche di performance gonfiate che non riflettono la scoperta. In questo articolo, introduciamo LLM-SRBench, un benchmark completo con 239 problemi complessi in quattro domini scientifici, progettato specificamente per valutare i metodi di scoperta di equazioni scientifiche basati su LLM, prevenendo la memorizzazione banale. Il nostro benchmark comprende due categorie principali: LSR-Transform, che trasforma modelli fisici comuni in rappresentazioni matematiche meno comuni per testare il ragionamento oltre le forme memorizzate, e LSR-Synth, che introduce problemi sintetici guidati dalla scoperta, richiedendo un ragionamento basato sui dati. Attraverso una valutazione estensiva di diversi metodi all'avanguardia, utilizzando sia LLM aperti che chiusi, scopriamo che il sistema con le migliori prestazioni finora raggiunge solo una precisione simbolica del 31,5%. Questi risultati evidenziano le sfide della scoperta di equazioni scientifiche, posizionando LLM-SRBench come una risorsa preziosa per la ricerca futura.
English
Scientific equation discovery is a fundamental task in the history of
scientific progress, enabling the derivation of laws governing natural
phenomena. Recently, Large Language Models (LLMs) have gained interest for this
task due to their potential to leverage embedded scientific knowledge for
hypothesis generation. However, evaluating the true discovery capabilities of
these methods remains challenging, as existing benchmarks often rely on common
equations that are susceptible to memorization by LLMs, leading to inflated
performance metrics that do not reflect discovery. In this paper, we introduce
LLM-SRBench, a comprehensive benchmark with 239 challenging problems across
four scientific domains specifically designed to evaluate LLM-based scientific
equation discovery methods while preventing trivial memorization. Our benchmark
comprises two main categories: LSR-Transform, which transforms common physical
models into less common mathematical representations to test reasoning beyond
memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven
problems requiring data-driven reasoning. Through extensive evaluation of
several state-of-the-art methods, using both open and closed LLMs, we find that
the best-performing system so far achieves only 31.5% symbolic accuracy. These
findings highlight the challenges of scientific equation discovery, positioning
LLM-SRBench as a valuable resource for future research.Summary
AI-Generated Summary