AAAR-1.0: Bewertung des Potenzials Künstlicher Intelligenz zur Unterstützung von Forschung

Zusammenfassung

Zahlreiche Studien haben die Leistungsfähigkeit von KI-Systemen, insbesondere von großen Sprachmodellen (LLMs), bei der Unterstützung alltäglicher Aufgaben wie dem Verfassen von E-Mails, dem Beantworten von Fragen und der Generierung kreativer Inhalte bewertet. Forscher stehen jedoch vor einzigartigen Herausforderungen und Möglichkeiten bei der Nutzung von LLMs für ihre eigene Arbeit, wie dem Brainstorming von Forschungsideen, dem Entwerfen von Experimenten und dem Verfassen oder Überprüfen von Papieren. In dieser Studie stellen wir AAAR-1.0 vor, einen Benchmark-Datensatz, der entwickelt wurde, um die Leistung von LLMs in drei grundlegenden, expertenintensiven Forschungsaufgaben zu bewerten: (i) EquationInference, die Überprüfung der Richtigkeit von Gleichungen basierend auf den kontextbezogenen Informationen in Papierbeiträgen; (ii) ExperimentDesign, das Entwerfen von Experimenten zur Validierung von Forschungsideen und Lösungen; (iii) PaperWeakness, die Identifizierung von Schwächen in Papierbeiträgen; und (iv) REVIEWCRITIQUE, die Feststellung, ob jeder Abschnitt in menschlichen Bewertungen mangelhaft ist oder nicht. AAAR-1.0 unterscheidet sich von früheren Benchmarks auf zwei wesentliche Arten: erstens ist er explizit forschungsorientiert, mit Aufgaben, die tiefgreifende Fachkenntnisse erfordern; zweitens ist er forschungsorientiert, indem er die Hauptaktivitäten widerspiegelt, denen Forscher täglich nachgehen. Eine Bewertung sowohl von Open-Source als auch von proprietären LLMs zeigt ihr Potenzial sowie ihre Grenzen bei der Durchführung anspruchsvoller Forschungsaufgaben auf. Wir werden AAAR-1.0 kontinuierlich zu neuen Versionen weiterentwickeln.

English

Numerous studies have assessed the proficiency of AI systems, particularly large language models (LLMs), in facilitating everyday tasks such as email writing, question answering, and creative content generation. However, researchers face unique challenges and opportunities in leveraging LLMs for their own work, such as brainstorming research ideas, designing experiments, and writing or reviewing papers. In this study, we introduce AAAR-1.0, a benchmark dataset designed to evaluate LLM performance in three fundamental, expertise-intensive research tasks: (i) EquationInference, assessing the correctness of equations based on the contextual information in paper submissions; (ii) ExperimentDesign, designing experiments to validate research ideas and solutions; (iii) PaperWeakness, identifying weaknesses in paper submissions; and (iv) REVIEWCRITIQUE, identifying each segment in human reviews is deficient or not. AAAR-1.0 differs from prior benchmarks in two key ways: first, it is explicitly research-oriented, with tasks requiring deep domain expertise; second, it is researcher-oriented, mirroring the primary activities that researchers engage in on a daily basis. An evaluation of both open-source and proprietary LLMs reveals their potential as well as limitations in conducting sophisticated research tasks. We will keep iterating AAAR-1.0 to new versions.

AAAR-1.0: Bewertung des Potenzials Künstlicher Intelligenz zur Unterstützung von Forschung

AAAR-1.0: Assessing AI's Potential to Assist Research

Zusammenfassung

Summary

Support