ChatPaper.aiChatPaper

OpenCharacter: Training von anpassbaren Rollenspiel-LLMs mit groß angelegten synthetischen Persönlichkeiten.

OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas

January 26, 2025
Autoren: Xiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu
cs.AI

Zusammenfassung

Die anpassbare Rollenspielfähigkeit in großen Sprachmodellen (LLMs), auch als Charakterverallgemeinerung bekannt, gewinnt zunehmend an Aufmerksamkeit aufgrund ihrer Vielseitigkeit und Kosteneffizienz bei der Entwicklung und Bereitstellung von Rollenspiel-Dialogagenten. Diese Studie untersucht einen datengesteuerten Ansatz im großen Maßstab, um LLMs mit Charakterverallgemeinerungsfähigkeiten auszustatten. Wir beginnen mit der Synthese von umfangreichen Charakterprofilen unter Verwendung von Persönlichkeiten aus dem Persona Hub und untersuchen dann zwei Strategien: Antwortumschreibung und Antwortgenerierung, um charakterausgerichtete instruktive Antworten zu erstellen. Zur Validierung der Effektivität unserer synthetischen Anleitungstuning-Daten für die Charakterverallgemeinerung führen wir ein überwachtes Feintuning (SFT) unter Verwendung des LLaMA-3 8B-Modells durch. Unser leistungsstärkstes Modell stärkt das ursprüngliche LLaMA-3 8B Instruct-Modell und erzielt eine Leistung, die mit der von GPT-4o-Modellen bei Rollenspiel-Dialogen vergleichbar ist. Wir veröffentlichen unsere synthetischen Charaktere und Anleitungstuning-Dialoge, um die öffentliche Forschung zu unterstützen.
English
Customizable role-playing in large language models (LLMs), also known as character generalization, is gaining increasing attention for its versatility and cost-efficiency in developing and deploying role-playing dialogue agents. This study explores a large-scale data synthesis approach to equip LLMs with character generalization capabilities. We begin by synthesizing large-scale character profiles using personas from Persona Hub and then explore two strategies: response rewriting and response generation, to create character-aligned instructional responses. To validate the effectiveness of our synthetic instruction tuning data for character generalization, we perform supervised fine-tuning (SFT) using the LLaMA-3 8B model. Our best-performing model strengthens the original LLaMA-3 8B Instruct model and achieves performance comparable to GPT-4o models on role-playing dialogue. We release our synthetic characters and instruction-tuning dialogues to support public research.

Summary

AI-Generated Summary

PDF62January 28, 2025