AAAR-1.0 : Évaluation du potentiel de l'IA pour assister la recherche
AAAR-1.0: Assessing AI's Potential to Assist Research
October 29, 2024
Auteurs: Renze Lou, Hanzi Xu, Sijia Wang, Jiangshu Du, Ryo Kamoi, Xiaoxin Lu, Jian Xie, Yuxuan Sun, Yusen Zhang, Jihyun Janice Ahn, Hongchao Fang, Zhuoyang Zou, Wenchao Ma, Xi Li, Kai Zhang, Congying Xia, Lifu Huang, Wenpeng Yin
cs.AI
Résumé
De nombreuses études ont évalué la compétence des systèmes d'IA, en particulier des grands modèles de langage (LLM), dans la facilitation des tâches quotidiennes telles que la rédaction d'e-mails, la réponse aux questions et la génération de contenu créatif. Cependant, les chercheurs sont confrontés à des défis et des opportunités uniques dans l'utilisation des LLM pour leur propre travail, comme la génération d'idées de recherche, la conception d'expériences et la rédaction ou la révision d'articles. Dans cette étude, nous présentons AAAR-1.0, un ensemble de données de référence conçu pour évaluer les performances des LLM dans trois tâches de recherche fondamentales et intensives en expertise : (i) Inférence d'équations, évaluant la justesse des équations en fonction des informations contextuelles dans les soumissions d'articles ; (ii) Conception d'expériences, concevant des expériences pour valider des idées et des solutions de recherche ; (iii) Faiblesses de l'article, identifiant les faiblesses dans les soumissions d'articles ; et (iv) CRITIQUE DE REVISION, identifiant si chaque segment dans les revues humaines est déficient ou non. AAAR-1.0 se distingue des ensembles de données de référence précédents de deux manières clés : premièrement, il est explicitement orienté vers la recherche, avec des tâches nécessitant une expertise approfondie dans le domaine ; deuxièmement, il est orienté vers les chercheurs, reflétant les activités principales auxquelles les chercheurs participent quotidiennement. Une évaluation des LLM open source et propriétaires révèle leur potentiel ainsi que leurs limites dans la réalisation de tâches de recherche sophistiquées. Nous continuerons à itérer AAAR-1.0 vers de nouvelles versions.
English
Numerous studies have assessed the proficiency of AI systems, particularly
large language models (LLMs), in facilitating everyday tasks such as email
writing, question answering, and creative content generation. However,
researchers face unique challenges and opportunities in leveraging LLMs for
their own work, such as brainstorming research ideas, designing experiments,
and writing or reviewing papers. In this study, we introduce AAAR-1.0, a
benchmark dataset designed to evaluate LLM performance in three fundamental,
expertise-intensive research tasks: (i) EquationInference, assessing the
correctness of equations based on the contextual information in paper
submissions; (ii) ExperimentDesign, designing experiments to validate research
ideas and solutions; (iii) PaperWeakness, identifying weaknesses in paper
submissions; and (iv) REVIEWCRITIQUE, identifying each segment in human reviews
is deficient or not. AAAR-1.0 differs from prior benchmarks in two key ways:
first, it is explicitly research-oriented, with tasks requiring deep domain
expertise; second, it is researcher-oriented, mirroring the primary activities
that researchers engage in on a daily basis. An evaluation of both open-source
and proprietary LLMs reveals their potential as well as limitations in
conducting sophisticated research tasks. We will keep iterating AAAR-1.0 to new
versions.Summary
AI-Generated Summary