ChatPaper.aiChatPaper

CoSER: 확립된 역할의 LLM 기반 페르소나 시뮬레이션 조정

CoSER: Coordinating LLM-Based Persona Simulation of Established Roles

February 13, 2025
저자: Xintao Wang, Heng Wang, Yifei Zhang, Xinfeng Yuan, Rui Xu, Jen-tse Huang, Siyu Yuan, Haoran Guo, Jiangjie Chen, Wei Wang, Yanghua Xiao, Shuchang Zhou
cs.AI

초록

역할 연기 언어 에이전트(RPLAs)는 대형 언어 모델(LLMs)의 유망한 응용 프로그램으로 등장했습니다. 그러나 이미 확립된 캐릭터를 시뮬레이션 하는 것은 RPLAs에게 어려운 과제로 작용합니다. 이는 실제 캐릭터 데이터셋의 부족과 이를 사용한 미묘한 평가 방법 때문입니다. 본 논문에서는 효과적인 RPLAs를 위한 CoSER 데이터셋, 오픈 모델 및 평가 프로토콜을 제시합니다. CoSER 데이터셋은 771권의 유명한 책에서 17,966명의 캐릭터를 다루고 있습니다. 이는 실제 세계의 복잡성을 갖는 대화와 대화 설정, 캐릭터 경험 및 내부적 사고와 같은 다양한 데이터 유형을 제공합니다. 연기 방법론에서 영감을 받아, 우리는 책 장면에서 여러 캐릭터를 순차적으로 연기하는 훈련 및 평가용으로 주어진 상황 연기를 소개합니다. 우리의 데이터셋을 활용하여, 우리는 LLaMA-3.1 모델을 기반으로 한 CoSER 8B 및 CoSER 70B를 개발했습니다. 광범위한 실험에서 CoSER 데이터셋의 가치가 RPLA 훈련, 평가 및 검색에 어떻게 기여하는지를 입증했습니다. 게다가, CoSER 70B는 우리의 평가 및 세 가지 기존 벤치마크에서 GPT-4o를 능가하거나 맞먹는 최첨단 성능을 보여줍니다. 즉, InCharacter 및 LifeChoice 벤치마크에서 각각 75.80% 및 93.47%의 정확도를 달성했습니다.
English
Role-playing language agents (RPLAs) have emerged as promising applications of large language models (LLMs). However, simulating established characters presents a challenging task for RPLAs, due to the lack of authentic character datasets and nuanced evaluation methods using such data. In this paper, we present CoSER, a collection of a high-quality dataset, open models, and an evaluation protocol towards effective RPLAs of established characters. The CoSER dataset covers 17,966 characters from 771 renowned books. It provides authentic dialogues with real-world intricacies, as well as diverse data types such as conversation setups, character experiences and internal thoughts. Drawing from acting methodology, we introduce given-circumstance acting for training and evaluating role-playing LLMs, where LLMs sequentially portray multiple characters in book scenes. Using our dataset, we develop CoSER 8B and CoSER 70B, i.e., advanced open role-playing LLMs built on LLaMA-3.1 models. Extensive experiments demonstrate the value of the CoSER dataset for RPLA training, evaluation and retrieval. Moreover, CoSER 70B exhibits state-of-the-art performance surpassing or matching GPT-4o on our evaluation and three existing benchmarks, i.e., achieving 75.80% and 93.47% accuracy on the InCharacter and LifeChoice benchmarks respectively.

Summary

AI-Generated Summary

PDF272February 14, 2025