BoxingGym: 자동 실험 설계 및 모델 발견에서의 진행 상황 측정
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery
January 2, 2025
저자: Kanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman
cs.AI
초록
세계를 이해하고 과학적 이론으로 설명하는 것은 인공지능 연구의 중요한 목표입니다. 이론을 제안하고 실험을 설계하여 이를 검증하고, 데이터에 기반하여 이를 수정하는 것은 과학적 발견에 근본적입니다. LLM 기반 과학 에이전트의 중요한 잠재력에도 불구하고, LLM의 과학적 모델 제안, 실험 데이터 수집, 그리고 새로운 데이터에 근거하여 수정하는 능력을 체계적으로 테스트하는 벤치마크가 없습니다. 우리는 BoxingGym을 소개합니다. 이는 실험 설계(예: 과학 이론을 검증하기 위한 데이터 수집)와 모델 발견(예: 과학 이론 제안 및 수정)을 체계적으로 평가하기 위한 10개 환경을 갖춘 벤치마크입니다. 추적 가능하고 양적 평가를 가능하게 하기 위해, 우리는 각 환경을 생성 확률 모델로 구현하여 과학 에이전트가 상호작용적인 실험을 수행할 수 있도록 합니다. 이러한 확률 모델은 심리학부터 생태학까지 다양한 현실 세계의 과학 분야에서 추출됩니다. 과학 에이전트가 정보를 수집하는 능력을 양적으로 평가하기 위해, 우리는 예상 정보 이득(EIG)을 계산합니다. 이는 실험이 생성 모델의 매개 변수에 대한 불확실성을 얼마나 줄이는지를 측정하는 정보 이론적인 양입니다. 좋은 과학 이론은 간결하고 예측적인 설명입니다. 따라서 모델 발견을 양적으로 평가하기 위해, 우리는 과학 에이전트에게 모델을 설명하도록 요청하고, 이 설명이 다른 과학 에이전트가 이 환경에 대해 신뢰할 수 있는 예측을 할 수 있게 하는지를 평가합니다. 이 설명 기반 평가 외에도, 우리는 예측 오차와 같은 표준 모델 평가 지표를 계산합니다. 우리는 GPT-4o와 같은 현재 LLM이 실험 설계와 모델 발견 모두에 어려움을 겪는 것을 발견했습니다. LLM 기반 에이전트에 명시적인 통계 모델을 추가하는 것이 이러한 결과를 신뢰할 수 있게 향상시키지 않는다는 것을 발견했습니다.
English
Understanding the world and explaining it with scientific theories is a
central aspiration of artificial intelligence research. Proposing theories,
designing experiments to test them, and then revising them based on data are
fundamental to scientific discovery. Despite the significant promise of
LLM-based scientific agents, no benchmarks systematically test LLM's ability to
propose scientific models, collect experimental data, and revise them in light
of new data. We introduce BoxingGym, a benchmark with 10 environments for
systematically evaluating both experimental design (e.g. collecting data to
test a scientific theory) and model discovery (e.g. proposing and revising
scientific theories). To enable tractable and quantitative evaluation, we
implement each environment as a generative probabilistic model with which a
scientific agent can run interactive experiments. These probabilistic models
are drawn from various real-world scientific domains ranging from psychology to
ecology. To quantitatively evaluate a scientific agent's ability to collect
informative experimental data, we compute the expected information gain (EIG),
an information-theoretic quantity which measures how much an experiment reduces
uncertainty about the parameters of a generative model. A good scientific
theory is a concise and predictive explanation. Therefore, to quantitatively
evaluate model discovery, we ask a scientific agent to explain their model and
then assess whether this explanation enables another scientific agent to make
reliable predictions about this environment. In addition to this
explanation-based evaluation, we compute standard model evaluation metrics such
as prediction errors. We find that current LLMs, such as GPT-4o, struggle with
both experimental design and model discovery. We find that augmenting the
LLM-based agent with an explicit statistical model does not reliably improve
these results.Summary
AI-Generated Summary