WildIFEval: Instruktionsbefolgung in natürlicher Umgebung
WildIFEval: Instruction Following in the Wild
March 9, 2025
Autoren: Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor
cs.AI
Zusammenfassung
Aktuelle LLMs haben bemerkenswerte Erfolge bei der Befolgung von Benutzeranweisungen gezeigt, doch die Handhabung von Anweisungen mit mehreren Einschränkungen bleibt eine erhebliche Herausforderung. In dieser Arbeit stellen wir WildIFEval vor – einen umfangreichen Datensatz mit 12.000 realen Benutzeranweisungen, die vielfältige, mehrfach eingeschränkte Bedingungen aufweisen. Im Gegensatz zu früheren Datensätzen umfasst unsere Sammlung ein breites lexikalisches und thematisches Spektrum von Einschränkungen in natürlichen Benutzeranfragen. Wir kategorisieren diese Einschränkungen in acht übergeordnete Klassen, um ihre Verteilung und Dynamik in realen Szenarien zu erfassen. Mithilfe von WildIFEval führen wir umfangreiche Experimente durch, um die Fähigkeiten führender LLMs zur Befolgung von Anweisungen zu bewerten. Unsere Ergebnisse zeigen, dass alle evaluierten Modelle mit zunehmender Anzahl von Einschränkungen eine Leistungsverschlechterung erfahren. Somit zeigen wir, dass alle Modelle bei solchen Aufgaben noch erheblichen Verbesserungsbedarf haben. Darüber hinaus beobachten wir, dass die spezifische Art der Einschränkung eine entscheidende Rolle für die Modellleistung spielt. Wir veröffentlichen unseren Datensatz, um weitere Forschungen zur Befolgung von Anweisungen unter komplexen, realistischen Bedingungen zu fördern.
English
Recent LLMs have shown remarkable success in following user instructions, yet
handling instructions with multiple constraints remains a significant
challenge. In this work, we introduce WildIFEval - a large-scale dataset of 12K
real user instructions with diverse, multi-constraint conditions. Unlike prior
datasets, our collection spans a broad lexical and topical spectrum of
constraints, in natural user prompts. We categorize these constraints into
eight high-level classes to capture their distribution and dynamics in
real-world scenarios. Leveraging WildIFEval, we conduct extensive experiments
to benchmark the instruction-following capabilities of leading LLMs. Our
findings reveal that all evaluated models experience performance degradation
with an increasing number of constraints. Thus, we show that all models have a
large room for improvement on such tasks. Moreover, we observe that the
specific type of constraint plays a critical role in model performance. We
release our dataset to promote further research on instruction-following under
complex, realistic conditions.Summary
AI-Generated Summary