EvalTree: Profilierung von Schwächen in Sprachmodellen durch hierarchische Fähigkeitsbäume

Zusammenfassung

Eine ideale Modellbewertung sollte zwei Ziele erreichen: die Identifizierung von Schwachstellen des Modells und die Bereitstellung von umsetzbaren Verbesserungsempfehlungen. Um diese Ziele für die Bewertung von Sprachmodellen (Language Models, LMs) zu erreichen, formulieren wir das Problem der Erstellung eines Schwachstellenprofils, einer Sammlung von Schwachstellen, die in natürlicher Sprache ausgedrückt werden, basierend auf der Leistung eines LMs bei jedem einzelnen Instanz eines Benchmarks. Wir führen eine Reihe von quantitativen Bewertungen ein, um verschiedene Methoden zur Erstellung von Schwachstellenprofilen zu vergleichen. Zudem schlagen wir eine Methode zur Schwachstellenprofilierung vor, EvalTree. Diese konstruiert einen Fähigkeitsbaum, bei dem jeder Knoten eine in natürlicher Sprache beschriebene Fähigkeit repräsentiert und mit einer Teilmenge von Benchmark-Instanzen verknüpft ist, die speziell diese Fähigkeit bewerten; anschließend extrahiert sie Knoten, bei denen das LM schlecht abschneidet, um ein Schwachstellenprofil zu erstellen. Auf den Benchmarks MATH und WildChat zeigen wir, dass EvalTree Baseline-Methoden zur Schwachstellenprofilierung übertrifft, indem es Schwachstellen präziser und umfassender identifiziert. Die Schwachstellenprofilierung ermöglicht zudem eine schwachengeleitete Datensammlung, und die durch EvalTree identifizierten Schwachstellen geleitete Sammlung von Trainingsdaten verbessert die Leistung des LMs stärker als andere Datensammlungsstrategien. Wir zeigen auch, wie EvalTree Schwächen in der auf menschlichen Bewertungen basierenden Praxis von Chatbot Arena aufdeckt. Um zukünftige Arbeiten zu erleichtern, veröffentlichen wir unseren Code und eine Schnittstelle, die es Praktikern ermöglicht, die von EvalTree erstellten Fähigkeitsbäume interaktiv zu erkunden.

English

An ideal model evaluation should achieve two goals: identifying where the model fails and providing actionable improvement guidance. Toward these goals for Language Model (LM) evaluations, we formulate the problem of generating a weakness profile, a set of weaknesses expressed in natural language, given an LM's performance on every individual instance in a benchmark. We introduce a suite of quantitative assessments to compare different weakness profiling methods. We also propose a weakness profiling method EvalTree. It constructs a capability tree where each node represents a capability described in natural language and is linked to a subset of benchmark instances that specifically evaluate this capability; it then extracts nodes where the LM performs poorly to generate a weakness profile. On the MATH and WildChat benchmarks, we show that EvalTree outperforms baseline weakness profiling methods by identifying weaknesses more precisely and comprehensively. Weakness profiling further enables weakness-guided data collection, and training data collection guided by EvalTree-identified weaknesses improves LM performance more than other data collection strategies. We also show how EvalTree exposes flaws in Chatbot Arena's human-voter-based evaluation practice. To facilitate future work, we release our code and an interface that allows practitioners to interactively explore the capability trees built by EvalTree.

EvalTree: Profilierung von Schwächen in Sprachmodellen durch hierarchische Fähigkeitsbäume

EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees

Zusammenfassung

Summary

Support

Support