AAAR-1.0: Bewertung des Potenzials Künstlicher Intelligenz zur Unterstützung von Forschung
AAAR-1.0: Assessing AI's Potential to Assist Research
October 29, 2024
Autoren: Renze Lou, Hanzi Xu, Sijia Wang, Jiangshu Du, Ryo Kamoi, Xiaoxin Lu, Jian Xie, Yuxuan Sun, Yusen Zhang, Jihyun Janice Ahn, Hongchao Fang, Zhuoyang Zou, Wenchao Ma, Xi Li, Kai Zhang, Congying Xia, Lifu Huang, Wenpeng Yin
cs.AI
Zusammenfassung
Zahlreiche Studien haben die Leistungsfähigkeit von KI-Systemen, insbesondere von großen Sprachmodellen (LLMs), bei der Unterstützung alltäglicher Aufgaben wie dem Verfassen von E-Mails, dem Beantworten von Fragen und der Generierung kreativer Inhalte bewertet. Forscher stehen jedoch vor einzigartigen Herausforderungen und Möglichkeiten bei der Nutzung von LLMs für ihre eigene Arbeit, wie dem Brainstorming von Forschungsideen, dem Entwerfen von Experimenten und dem Verfassen oder Überprüfen von Papieren. In dieser Studie stellen wir AAAR-1.0 vor, einen Benchmark-Datensatz, der entwickelt wurde, um die Leistung von LLMs in drei grundlegenden, expertenintensiven Forschungsaufgaben zu bewerten: (i) EquationInference, die Überprüfung der Richtigkeit von Gleichungen basierend auf den kontextbezogenen Informationen in Papierbeiträgen; (ii) ExperimentDesign, das Entwerfen von Experimenten zur Validierung von Forschungsideen und Lösungen; (iii) PaperWeakness, die Identifizierung von Schwächen in Papierbeiträgen; und (iv) REVIEWCRITIQUE, die Feststellung, ob jeder Abschnitt in menschlichen Bewertungen mangelhaft ist oder nicht. AAAR-1.0 unterscheidet sich von früheren Benchmarks auf zwei wesentliche Arten: erstens ist er explizit forschungsorientiert, mit Aufgaben, die tiefgreifende Fachkenntnisse erfordern; zweitens ist er forschungsorientiert, indem er die Hauptaktivitäten widerspiegelt, denen Forscher täglich nachgehen. Eine Bewertung sowohl von Open-Source als auch von proprietären LLMs zeigt ihr Potenzial sowie ihre Grenzen bei der Durchführung anspruchsvoller Forschungsaufgaben auf. Wir werden AAAR-1.0 kontinuierlich zu neuen Versionen weiterentwickeln.
English
Numerous studies have assessed the proficiency of AI systems, particularly
large language models (LLMs), in facilitating everyday tasks such as email
writing, question answering, and creative content generation. However,
researchers face unique challenges and opportunities in leveraging LLMs for
their own work, such as brainstorming research ideas, designing experiments,
and writing or reviewing papers. In this study, we introduce AAAR-1.0, a
benchmark dataset designed to evaluate LLM performance in three fundamental,
expertise-intensive research tasks: (i) EquationInference, assessing the
correctness of equations based on the contextual information in paper
submissions; (ii) ExperimentDesign, designing experiments to validate research
ideas and solutions; (iii) PaperWeakness, identifying weaknesses in paper
submissions; and (iv) REVIEWCRITIQUE, identifying each segment in human reviews
is deficient or not. AAAR-1.0 differs from prior benchmarks in two key ways:
first, it is explicitly research-oriented, with tasks requiring deep domain
expertise; second, it is researcher-oriented, mirroring the primary activities
that researchers engage in on a daily basis. An evaluation of both open-source
and proprietary LLMs reveals their potential as well as limitations in
conducting sophisticated research tasks. We will keep iterating AAAR-1.0 to new
versions.Summary
AI-Generated Summary