ChatPaper.aiChatPaper

WritingBench: Ein umfassender Benchmark für generatives Schreiben

WritingBench: A Comprehensive Benchmark for Generative Writing

March 7, 2025
Autoren: Yuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, SHaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang
cs.AI

Zusammenfassung

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Fähigkeiten zur Textgenerierung erheblich verbessert, doch die Bewertung ihrer Leistung im Bereich des generativen Schreibens bleibt eine Herausforderung. Bestehende Benchmarks konzentrieren sich hauptsächlich auf generische Textgenerierung oder begrenzte Schreibaufgaben und erfassen nicht die vielfältigen Anforderungen hochwertiger schriftlicher Inhalte in verschiedenen Domänen. Um diese Lücke zu schließen, präsentieren wir WritingBench, einen umfassenden Benchmark, der entwickelt wurde, um LLMs in 6 Kernschreibdomänen und 100 Subdomänen zu bewerten, darunter kreatives, überzeugendes, informatives und technisches Schreiben. Wir schlagen weiterhin ein abfrageabhängiges Bewertungsframework vor, das LLMs befähigt, instanzspezifische Bewertungskriterien dynamisch zu generieren. Dieses Framework wird durch ein feinabgestimmtes Kritikermodell für kriterienbewusstes Scoring ergänzt, das Bewertungen in Bezug auf Stil, Format und Länge ermöglicht. Die Gültigkeit des Frameworks wird weiter durch seine Fähigkeit zur Datenkuratierung demonstriert, die es 7B-Parameter-Modellen ermöglicht, sich der State-of-the-Art (SOTA)-Leistung anzunähern. Wir stellen den Benchmark zusammen mit Bewertungstools und modularen Framework-Komponenten als Open Source zur Verfügung, um die Entwicklung von LLMs im Schreiben voranzutreiben.
English
Recent advancements in large language models (LLMs) have significantly enhanced text generation capabilities, yet evaluating their performance in generative writing remains a challenge. Existing benchmarks primarily focus on generic text generation or limited in writing tasks, failing to capture the diverse requirements of high-quality written contents across various domains. To bridge this gap, we present WritingBench, a comprehensive benchmark designed to evaluate LLMs across 6 core writing domains and 100 subdomains, encompassing creative, persuasive, informative, and technical writing. We further propose a query-dependent evaluation framework that empowers LLMs to dynamically generate instance-specific assessment criteria. This framework is complemented by a fine-tuned critic model for criteria-aware scoring, enabling evaluations in style, format and length. The framework's validity is further demonstrated by its data curation capability, which enables 7B-parameter models to approach state-of-the-art (SOTA) performance. We open-source the benchmark, along with evaluation tools and modular framework components, to advance the development of LLMs in writing.

Summary

AI-Generated Summary

PDF172March 11, 2025