BoxingGym: Avaliando o Progresso em Design Experimental Automatizado e Descoberta de Modelos
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery
January 2, 2025
Autores: Kanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman
cs.AI
Resumo
Compreender o mundo e explicá-lo com teorias científicas é uma aspiração central da pesquisa em inteligência artificial. Propor teorias, projetar experimentos para testá-las e então revisá-las com base em dados são fundamentais para a descoberta científica. Apesar da promessa significativa de agentes científicos baseados em LLM, não existem benchmarks que testem sistematicamente a capacidade do LLM de propor modelos científicos, coletar dados experimentais e revisá-los à luz de novos dados. Apresentamos o BoxingGym, um benchmark com 10 ambientes para avaliar sistematicamente tanto o design experimental (por exemplo, coletar dados para testar uma teoria científica) quanto a descoberta de modelos (por exemplo, propor e revisar teorias científicas). Para possibilitar uma avaliação tratável e quantitativa, implementamos cada ambiente como um modelo probabilístico generativo com o qual um agente científico pode conduzir experimentos interativos. Esses modelos probabilísticos são retirados de vários domínios científicos do mundo real, que vão da psicologia à ecologia. Para avaliar quantitativamente a capacidade de um agente científico de coletar dados experimentais informativos, calculamos o ganho de informação esperado (EIG), uma quantidade teórica da informação que mede o quanto um experimento reduz a incerteza sobre os parâmetros de um modelo generativo. Uma boa teoria científica é uma explicação concisa e preditiva. Portanto, para avaliar quantitativamente a descoberta de modelos, pedimos a um agente científico para explicar seu modelo e então avaliamos se essa explicação permite a outro agente científico fazer previsões confiáveis sobre esse ambiente. Além dessa avaliação baseada em explicação, calculamos métricas padrão de avaliação de modelos, como erros de previsão. Constatamos que os atuais LLMs, como o GPT-4o, enfrentam dificuldades tanto no design experimental quanto na descoberta de modelos. Verificamos que a adição de um modelo estatístico explícito ao agente baseado em LLM não melhora de forma confiável esses resultados.
English
Understanding the world and explaining it with scientific theories is a
central aspiration of artificial intelligence research. Proposing theories,
designing experiments to test them, and then revising them based on data are
fundamental to scientific discovery. Despite the significant promise of
LLM-based scientific agents, no benchmarks systematically test LLM's ability to
propose scientific models, collect experimental data, and revise them in light
of new data. We introduce BoxingGym, a benchmark with 10 environments for
systematically evaluating both experimental design (e.g. collecting data to
test a scientific theory) and model discovery (e.g. proposing and revising
scientific theories). To enable tractable and quantitative evaluation, we
implement each environment as a generative probabilistic model with which a
scientific agent can run interactive experiments. These probabilistic models
are drawn from various real-world scientific domains ranging from psychology to
ecology. To quantitatively evaluate a scientific agent's ability to collect
informative experimental data, we compute the expected information gain (EIG),
an information-theoretic quantity which measures how much an experiment reduces
uncertainty about the parameters of a generative model. A good scientific
theory is a concise and predictive explanation. Therefore, to quantitatively
evaluate model discovery, we ask a scientific agent to explain their model and
then assess whether this explanation enables another scientific agent to make
reliable predictions about this environment. In addition to this
explanation-based evaluation, we compute standard model evaluation metrics such
as prediction errors. We find that current LLMs, such as GPT-4o, struggle with
both experimental design and model discovery. We find that augmenting the
LLM-based agent with an explicit statistical model does not reliably improve
these results.Summary
AI-Generated Summary