OpenCharacter: Training van aanpasbare Role-Playing LLM's met grootschalige synthetische personages

OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas

January 26, 2025
Auteurs: Xiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu
cs.AI

Samenvatting

Aanpasbaar rollenspel in grote taalmodellen (LLM's), ook bekend als karaktergeneralisatie, krijgt steeds meer aandacht vanwege de veelzijdigheid en kostenefficiëntie bij het ontwikkelen en implementeren van rollenspelende dialoogagenten. Deze studie onderzoekt een grootschalige gegevenssynthesebenadering om LLM's uit te rusten met karaktergeneralisatiecapaciteiten. We beginnen met het synthetiseren van grootschalige karakterprofielen met behulp van persona's van Persona Hub en verkennen vervolgens twee strategieën: respons herschrijven en respons genereren, om karaktergerichte instructieresponsen te creëren. Om de effectiviteit van onze synthetische instructie-afstemmingsgegevens voor karaktergeneralisatie te valideren, voeren we begeleid fijnafstemmen (SFT) uit met behulp van het LLaMA-3 8B-model. Ons best presterende model versterkt het oorspronkelijke LLaMA-3 8B Instruct-model en behaalt prestaties vergelijkbaar met GPT-4o-modellen in rollenspelende dialogen. We stellen onze synthetische karakters en instructie-afstemmingsdialogen beschikbaar ter ondersteuning van openbaar onderzoek.
English
Customizable role-playing in large language models (LLMs), also known as character generalization, is gaining increasing attention for its versatility and cost-efficiency in developing and deploying role-playing dialogue agents. This study explores a large-scale data synthesis approach to equip LLMs with character generalization capabilities. We begin by synthesizing large-scale character profiles using personas from Persona Hub and then explore two strategies: response rewriting and response generation, to create character-aligned instructional responses. To validate the effectiveness of our synthetic instruction tuning data for character generalization, we perform supervised fine-tuning (SFT) using the LLaMA-3 8B model. Our best-performing model strengthens the original LLaMA-3 8B Instruct model and achieves performance comparable to GPT-4o models on role-playing dialogue. We release our synthetic characters and instruction-tuning dialogues to support public research.

Summary

AI-Generated Summary

PDF42January 28, 2025