OpenCharacter: Training von anpassbaren Rollenspiel-LLMs mit groß angelegten synthetischen Persönlichkeiten.
OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas
January 26, 2025
Autoren: Xiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu
cs.AI
Zusammenfassung
Die anpassbare Rollenspielfähigkeit in großen Sprachmodellen (LLMs), auch als Charakterverallgemeinerung bekannt, gewinnt zunehmend an Aufmerksamkeit aufgrund ihrer Vielseitigkeit und Kosteneffizienz bei der Entwicklung und Bereitstellung von Rollenspiel-Dialogagenten. Diese Studie untersucht einen datengesteuerten Ansatz im großen Maßstab, um LLMs mit Charakterverallgemeinerungsfähigkeiten auszustatten. Wir beginnen mit der Synthese von umfangreichen Charakterprofilen unter Verwendung von Persönlichkeiten aus dem Persona Hub und untersuchen dann zwei Strategien: Antwortumschreibung und Antwortgenerierung, um charakterausgerichtete instruktive Antworten zu erstellen. Zur Validierung der Effektivität unserer synthetischen Anleitungstuning-Daten für die Charakterverallgemeinerung führen wir ein überwachtes Feintuning (SFT) unter Verwendung des LLaMA-3 8B-Modells durch. Unser leistungsstärkstes Modell stärkt das ursprüngliche LLaMA-3 8B Instruct-Modell und erzielt eine Leistung, die mit der von GPT-4o-Modellen bei Rollenspiel-Dialogen vergleichbar ist. Wir veröffentlichen unsere synthetischen Charaktere und Anleitungstuning-Dialoge, um die öffentliche Forschung zu unterstützen.
English
Customizable role-playing in large language models (LLMs), also known as
character generalization, is gaining increasing attention for its versatility
and cost-efficiency in developing and deploying role-playing dialogue agents.
This study explores a large-scale data synthesis approach to equip LLMs with
character generalization capabilities. We begin by synthesizing large-scale
character profiles using personas from Persona Hub and then explore two
strategies: response rewriting and response generation, to create
character-aligned instructional responses. To validate the effectiveness of our
synthetic instruction tuning data for character generalization, we perform
supervised fine-tuning (SFT) using the LLaMA-3 8B model. Our best-performing
model strengthens the original LLaMA-3 8B Instruct model and achieves
performance comparable to GPT-4o models on role-playing dialogue. We release
our synthetic characters and instruction-tuning dialogues to support public
research.Summary
AI-Generated Summary