Messung der Fähigkeit von KI, lange Aufgaben zu bewältigen
Measuring AI Ability to Complete Long Tasks
March 18, 2025
Autoren: Thomas Kwa, Ben West, Joel Becker, Amy Deng, Katharyn Garcia, Max Hasin, Sami Jawhar, Megan Kinniment, Nate Rush, Sydney Von Arx, Ryan Bloom, Thomas Broadley, Haoxing Du, Brian Goodrich, Nikola Jurkovic, Luke Harold Miles, Seraphina Nix, Tao Lin, Neev Parikh, David Rein, Lucas Jun Koba Sato, Hjalmar Wijk, Daniel M. Ziegler, Elizabeth Barnes, Lawrence Chan
cs.AI
Zusammenfassung
Trotz rasanter Fortschritte bei KI-Benchmarks bleibt die reale Bedeutung der Benchmark-Leistung unklar. Um die Fähigkeiten von KI-Systemen in Bezug auf menschliche Fähigkeiten zu quantifizieren, schlagen wir eine neue Metrik vor: den 50%-Aufgabenabschluss-Zeithorizont. Dies ist die Zeit, die Menschen typischerweise benötigen, um Aufgaben zu erledigen, die KI-Modelle mit einer Erfolgsquote von 50 % bewältigen können. Zunächst haben wir die Zeit gemessen, die Menschen mit relevanter Domänenexpertise für eine Kombination aus RE-Bench, HCAST und 66 neuen kürzeren Aufgaben benötigen. Bei diesen Aufgaben liegt der 50%-Zeithorizont aktueller Spitzen-KI-Modelle wie Claude 3.7 Sonnet bei etwa 50 Minuten. Darüber hinaus hat sich der Zeithorizont von Spitzen-KI-Modellen seit 2019 ungefähr alle sieben Monate verdoppelt, wobei sich dieser Trend im Jahr 2024 möglicherweise beschleunigt hat. Die Zunahme der Zeithorizonte von KI-Modellen scheint hauptsächlich durch eine größere Zuverlässigkeit und die Fähigkeit, sich an Fehler anzupassen, sowie durch bessere logische Denkfähigkeiten und Werkzeugnutzungskompetenzen getrieben zu sein. Wir diskutieren die Grenzen unserer Ergebnisse – einschließlich ihres Grades an externer Validität – und die Implikationen einer zunehmenden Autonomie für gefährliche Fähigkeiten. Wenn sich diese Ergebnisse auf reale Softwareaufgaben übertragen lassen, sagt die Extrapolation dieses Trends voraus, dass KI-Systeme innerhalb von 5 Jahren in der Lage sein werden, viele Softwareaufgaben zu automatisieren, die derzeit einen Monat in Anspruch nehmen.
English
Despite rapid progress on AI benchmarks, the real-world meaning of benchmark
performance remains unclear. To quantify the capabilities of AI systems in
terms of human capabilities, we propose a new metric: 50%-task-completion time
horizon. This is the time humans typically take to complete tasks that AI
models can complete with 50% success rate. We first timed humans with relevant
domain expertise on a combination of RE-Bench, HCAST, and 66 novel shorter
tasks. On these tasks, current frontier AI models such as Claude 3.7 Sonnet
have a 50% time horizon of around 50 minutes. Furthermore, frontier AI time
horizon has been doubling approximately every seven months since 2019, though
the trend may have accelerated in 2024. The increase in AI models' time
horizons seems to be primarily driven by greater reliability and ability to
adapt to mistakes, combined with better logical reasoning and tool use
capabilities. We discuss the limitations of our results -- including their
degree of external validity -- and the implications of increased autonomy for
dangerous capabilities. If these results generalize to real-world software
tasks, extrapolation of this trend predicts that within 5 years, AI systems
will be capable of automating many software tasks that currently take humans a
month.Summary
AI-Generated Summary