AAAR-1.0: Valutare il Potenziale dell'IA per Assistere la Ricerca
AAAR-1.0: Assessing AI's Potential to Assist Research
October 29, 2024
Autori: Renze Lou, Hanzi Xu, Sijia Wang, Jiangshu Du, Ryo Kamoi, Xiaoxin Lu, Jian Xie, Yuxuan Sun, Yusen Zhang, Jihyun Janice Ahn, Hongchao Fang, Zhuoyang Zou, Wenchao Ma, Xi Li, Kai Zhang, Congying Xia, Lifu Huang, Wenpeng Yin
cs.AI
Abstract
Numerosi studi hanno valutato l'efficienza dei sistemi di intelligenza artificiale, in particolare dei grandi modelli linguistici (LLM), nel facilitare compiti quotidiani come la scrittura di email, la risposta a domande e la generazione di contenuti creativi. Tuttavia, i ricercatori si trovano di fronte a sfide e opportunità uniche nell'utilizzo dei LLM per il proprio lavoro, come ad esempio lo sviluppo di idee di ricerca, la progettazione di esperimenti e la scrittura o revisione di articoli. In questo studio, presentiamo AAAR-1.0, un dataset di benchmark progettato per valutare le prestazioni dei LLM in tre compiti di ricerca fondamentali e ad alta specializzazione: (i) Inferenza di Equazioni, valutando la correttezza delle equazioni basata sul contesto informativo nei documenti di ricerca; (ii) Progettazione di Esperimenti, progettando esperimenti per convalidare idee e soluzioni di ricerca; (iii) Debolezze dell'Articolo, identificando le debolezze nei documenti di ricerca; e (iv) CRITICA DELLA RECENSIONE, identificando se ciascun segmento nelle recensioni umane è carente o meno. AAAR-1.0 si differenzia dai benchmark precedenti per due motivi fondamentali: innanzitutto, è esplicitamente orientato alla ricerca, con compiti che richiedono una profonda competenza nel settore; in secondo luogo, è orientato al ricercatore, riflettendo le attività principali in cui i ricercatori sono coinvolti quotidianamente. Una valutazione sia dei LLM open-source che proprietari mette in luce il loro potenziale e le limitazioni nel svolgere compiti di ricerca sofisticati. Continueremo a iterare AAAR-1.0 verso nuove versioni.
English
Numerous studies have assessed the proficiency of AI systems, particularly
large language models (LLMs), in facilitating everyday tasks such as email
writing, question answering, and creative content generation. However,
researchers face unique challenges and opportunities in leveraging LLMs for
their own work, such as brainstorming research ideas, designing experiments,
and writing or reviewing papers. In this study, we introduce AAAR-1.0, a
benchmark dataset designed to evaluate LLM performance in three fundamental,
expertise-intensive research tasks: (i) EquationInference, assessing the
correctness of equations based on the contextual information in paper
submissions; (ii) ExperimentDesign, designing experiments to validate research
ideas and solutions; (iii) PaperWeakness, identifying weaknesses in paper
submissions; and (iv) REVIEWCRITIQUE, identifying each segment in human reviews
is deficient or not. AAAR-1.0 differs from prior benchmarks in two key ways:
first, it is explicitly research-oriented, with tasks requiring deep domain
expertise; second, it is researcher-oriented, mirroring the primary activities
that researchers engage in on a daily basis. An evaluation of both open-source
and proprietary LLMs reveals their potential as well as limitations in
conducting sophisticated research tasks. We will keep iterating AAAR-1.0 to new
versions.Summary
AI-Generated Summary