ChatPaper.aiChatPaper

Curie: К строгому и автоматизированному научному экспериментированию с использованием ИИ-агентов

Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents

February 22, 2025
Авторы: Patrick Tser Jern Kon, Jiachen Liu, Qiuyi Ding, Yiming Qiu, Zhenning Yang, Yibo Huang, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Ang Chen
cs.AI

Аннотация

Научный эксперимент, являющийся краеугольным камнем человеческого прогресса, требует строгости в надежности, методическом контроле и интерпретируемости для получения значимых результатов. Несмотря на растущие возможности крупных языковых моделей (LLM) в автоматизации различных аспектов научного процесса, автоматизация строгих экспериментов остается серьезной проблемой. Для устранения этого пробела мы предлагаем Curie — фреймворк для ИИ-агентов, разработанный для внедрения строгости в процесс экспериментирования с помощью трех ключевых компонентов: внутриагентного модуля строгости для повышения надежности, межагентного модуля строгости для обеспечения методического контроля и модуля знаний об экспериментах для улучшения интерпретируемости. Для оценки Curie мы разработали новый экспериментальный бенчмарк, состоящий из 46 вопросов в четырех областях компьютерных наук, основанных на влиятельных научных работах и широко используемых проектах с открытым исходным кодом. По сравнению с самым сильным базовым методом, мы достигли улучшения в 3,4 раза в правильности ответов на экспериментальные вопросы. Curie доступен в открытом доступе по адресу https://github.com/Just-Curieous/Curie.
English
Scientific experimentation, a cornerstone of human progress, demands rigor in reliability, methodical control, and interpretability to yield meaningful results. Despite the growing capabilities of large language models (LLMs) in automating different aspects of the scientific process, automating rigorous experimentation remains a significant challenge. To address this gap, we propose Curie, an AI agent framework designed to embed rigor into the experimentation process through three key components: an intra-agent rigor module to enhance reliability, an inter-agent rigor module to maintain methodical control, and an experiment knowledge module to enhance interpretability. To evaluate Curie, we design a novel experimental benchmark composed of 46 questions across four computer science domains, derived from influential research papers, and widely adopted open-source projects. Compared to the strongest baseline tested, we achieve a 3.4times improvement in correctly answering experimental questions.Curie is open-sourced at https://github.com/Just-Curieous/Curie.

Summary

AI-Generated Summary

PDF175February 26, 2025