AI의 연구 지원 잠재력을 평가하는 AAAR-1.0
AAAR-1.0: Assessing AI's Potential to Assist Research
October 29, 2024
저자: Renze Lou, Hanzi Xu, Sijia Wang, Jiangshu Du, Ryo Kamoi, Xiaoxin Lu, Jian Xie, Yuxuan Sun, Yusen Zhang, Jihyun Janice Ahn, Hongchao Fang, Zhuoyang Zou, Wenchao Ma, Xi Li, Kai Zhang, Congying Xia, Lifu Huang, Wenpeng Yin
cs.AI
초록
다수의 연구에서는 특히 대규모 언어 모델 (LLMs)이 이메일 작성, 질문 응답 및 창의적 콘텐츠 생성과 같은 일상적인 작업을 용이하게 하는 데 얼마나 능숙한지를 평가해 왔습니다. 그러나 연구자들은 자신의 작업에 LLM을 활용하는 데 고유한 도전과 기회를 직면하고 있습니다. 예를 들어, 연구 아이디어 떠올리기, 실험 설계, 논문 작성 또는 검토와 같은 작업을 수행하는 데 LLM을 활용하는 것입니다. 본 연구에서는 AAAR-1.0을 소개합니다. 이는 세 가지 기본적이고 전문적인 연구 작업에서 LLM의 성능을 평가하기 위해 설계된 벤치마크 데이터셋입니다. 이 세 가지 작업은 다음과 같습니다: (i) EquationInference, 논문 제출물의 맥락 정보를 기반으로 방정식의 정확성을 평가하는 작업; (ii) ExperimentDesign, 연구 아이디어 및 해결책을 검증하기 위한 실험 설계 작업; (iii) PaperWeakness, 논문 제출물의 약점을 식별하는 작업; 그리고 (iv) REVIEWCRITIQUE, 인간 리뷰에서 각 세그먼트가 결함이 있는지 여부를 식별하는 작업입니다. AAAR-1.0은 이전 벤치마크와 두 가지 중요한 측면에서 차별화됩니다: 첫째, 명시적으로 연구 지향적이며, 심층적인 도메인 전문 지식이 필요한 작업을 수행합니다. 둘째, 연구자 중심적이며, 연구자들이 일상적으로 참여하는 주요 활동을 반영합니다. 오픈 소스와 프로프리어터리 LLM의 평가를 통해, 이들이 복잡한 연구 작업을 수행하는 데 있어 잠재력과 한계를 확인할 수 있습니다. 우리는 AAAR-1.0을 새로운 버전으로 지속적으로 발전시킬 것입니다.
English
Numerous studies have assessed the proficiency of AI systems, particularly
large language models (LLMs), in facilitating everyday tasks such as email
writing, question answering, and creative content generation. However,
researchers face unique challenges and opportunities in leveraging LLMs for
their own work, such as brainstorming research ideas, designing experiments,
and writing or reviewing papers. In this study, we introduce AAAR-1.0, a
benchmark dataset designed to evaluate LLM performance in three fundamental,
expertise-intensive research tasks: (i) EquationInference, assessing the
correctness of equations based on the contextual information in paper
submissions; (ii) ExperimentDesign, designing experiments to validate research
ideas and solutions; (iii) PaperWeakness, identifying weaknesses in paper
submissions; and (iv) REVIEWCRITIQUE, identifying each segment in human reviews
is deficient or not. AAAR-1.0 differs from prior benchmarks in two key ways:
first, it is explicitly research-oriented, with tasks requiring deep domain
expertise; second, it is researcher-oriented, mirroring the primary activities
that researchers engage in on a daily basis. An evaluation of both open-source
and proprietary LLMs reveals their potential as well as limitations in
conducting sophisticated research tasks. We will keep iterating AAAR-1.0 to new
versions.Summary
AI-Generated Summary