ChatPaper.aiChatPaper

AIDE: 코드 공간에서의 AI 기반 탐색

AIDE: AI-Driven Exploration in the Space of Code

February 18, 2025
저자: Zhengyao Jiang, Dominik Schmidt, Dhruv Srikanth, Dixing Xu, Ian Kaplan, Deniss Jacenko, Yuxiang Wu
cs.AI

초록

현대 인공지능의 기반이 되는 머신러닝은 세상을 근본적으로 변화시킨 혁신을 이끌어왔습니다. 그러나 이러한 발전 뒤에는 복잡하고 종종 지루한 과정이 있으며, 이는 노동력과 컴퓨팅 자원을 집중적으로 요구하는 반복적 실험을 필요로 합니다. 머신러닝 모델을 개발하는 엔지니어와 과학자들은 혁신적인 솔루션이나 연구 가설을 구상하는 대신, 시행착오 작업에 많은 시간을 할애합니다. 이러한 문제를 해결하기 위해, 우리는 대규모 언어 모델(LLMs)로 구동되는 머신러닝 엔지니어링 에이전트인 AI-Driven Exploration(AIDE)을 소개합니다. AIDE는 머신러닝 엔지니어링을 코드 최적화 문제로 정의하고, 잠재적 솔루션 공간에서의 시행착오를 트리 탐색으로 공식화합니다. 유망한 솔루션을 전략적으로 재사용하고 개선함으로써, AIDE는 컴퓨팅 자원을 성능 향상과 교환하여, Kaggle 평가, OpenAI MLE-Bench 및 METRs RE-Bench를 포함한 여러 머신러닝 엔지니어링 벤치마크에서 최첨단 결과를 달성합니다.
English
Machine learning, the foundation of modern artificial intelligence, has driven innovations that have fundamentally transformed the world. Yet, behind advancements lies a complex and often tedious process requiring labor and compute intensive iteration and experimentation. Engineers and scientists developing machine learning models spend much of their time on trial-and-error tasks instead of conceptualizing innovative solutions or research hypotheses. To address this challenge, we introduce AI-Driven Exploration (AIDE), a machine learning engineering agent powered by large language models (LLMs). AIDE frames machine learning engineering as a code optimization problem, and formulates trial-and-error as a tree search in the space of potential solutions. By strategically reusing and refining promising solutions, AIDE effectively trades computational resources for enhanced performance, achieving state-of-the-art results on multiple machine learning engineering benchmarks, including our Kaggle evaluations, OpenAI MLE-Bench and METRs RE-Bench.

Summary

AI-Generated Summary

PDF56February 20, 2025