AAAR-1.0: Het Beoordelen van het Potentieel van AI om Onderzoek te Ondersteunen

AAAR-1.0: Assessing AI's Potential to Assist Research

October 29, 2024
Auteurs: Renze Lou, Hanzi Xu, Sijia Wang, Jiangshu Du, Ryo Kamoi, Xiaoxin Lu, Jian Xie, Yuxuan Sun, Yusen Zhang, Jihyun Janice Ahn, Hongchao Fang, Zhuoyang Zou, Wenchao Ma, Xi Li, Kai Zhang, Congying Xia, Lifu Huang, Wenpeng Yin
cs.AI

Samenvatting

Diverse studies hebben de bekwaamheid van AI-systemen, met name grote taalmodellen (LLM's), beoordeeld in het ondersteunen van alledaagse taken zoals e-mail schrijven, vraagbeantwoording en het genereren van creatieve inhoud. Echter staan onderzoekers voor unieke uitdagingen en kansen bij het benutten van LLM's voor hun eigen werk, zoals het bedenken van onderzoeksideeën, het ontwerpen van experimenten en het schrijven of beoordelen van papers. In dit onderzoek introduceren we AAAR-1.0, een benchmark dataset ontworpen om LLM-prestaties te evalueren in drie fundamentele, expertise-intensieve onderzoekstaken: (i) EquationInference, waarbij de juistheid van vergelijkingen wordt beoordeeld op basis van de contextuele informatie in paperindieningen; (ii) ExperimentDesign, het ontwerpen van experimenten om onderzoeksideeën en oplossingen te valideren; (iii) PaperWeakness, het identificeren van zwakke punten in paperindieningen; en (iv) REVIEWCRITIQUE, het identificeren of elk segment in menselijke reviews gebrekkig is of niet. AAAR-1.0 verschilt van eerdere benchmarks op twee belangrijke manieren: ten eerste is het expliciet onderzoeksgericht, met taken die diepgaande domeinkennis vereisen; ten tweede is het onderzoekergericht, waarbij de primaire activiteiten worden weerspiegeld waar onderzoekers dagelijks mee bezig zijn. Een evaluatie van zowel open-source als gepatenteerde LLM's onthult hun potentieel evenals beperkingen bij het uitvoeren van geavanceerde onderzoekstaken. We zullen AAAR-1.0 blijven verbeteren naar nieuwe versies.
English
Numerous studies have assessed the proficiency of AI systems, particularly large language models (LLMs), in facilitating everyday tasks such as email writing, question answering, and creative content generation. However, researchers face unique challenges and opportunities in leveraging LLMs for their own work, such as brainstorming research ideas, designing experiments, and writing or reviewing papers. In this study, we introduce AAAR-1.0, a benchmark dataset designed to evaluate LLM performance in three fundamental, expertise-intensive research tasks: (i) EquationInference, assessing the correctness of equations based on the contextual information in paper submissions; (ii) ExperimentDesign, designing experiments to validate research ideas and solutions; (iii) PaperWeakness, identifying weaknesses in paper submissions; and (iv) REVIEWCRITIQUE, identifying each segment in human reviews is deficient or not. AAAR-1.0 differs from prior benchmarks in two key ways: first, it is explicitly research-oriented, with tasks requiring deep domain expertise; second, it is researcher-oriented, mirroring the primary activities that researchers engage in on a daily basis. An evaluation of both open-source and proprietary LLMs reveals their potential as well as limitations in conducting sophisticated research tasks. We will keep iterating AAAR-1.0 to new versions.

Summary

AI-Generated Summary

PDF133November 13, 2024