ChatPaper.aiChatPaper

REALTALK: 장기 대화를 위한 21일간의 실세계 데이터셋

REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation

February 18, 2025
저자: Dong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren, Francesco Barbieri
cs.AI

초록

장기적이고 개방된 도메인의 대화 능력은 과거 상호작용을 기억하고 감성 지능(EI)을 보여주는 것을 목표로 하는 챗봇에게 필수적입니다. 그러나 대부분의 기존 연구는 합성적이고 대형 언어 모델(LLM)이 생성한 데이터에 의존하고 있어, 실제 세계의 대화 패턴에 대한 의문을 남기고 있습니다. 이러한 격차를 해결하기 위해, 우리는 실제 메시징 앱 대화로 구성된 21일간의 코퍼스인 REALTALK를 소개하며, 이는 진정한 인간 상호작용에 대한 직접적인 벤치마크를 제공합니다. 우선, 데이터셋 분석을 수행하여 EI 속성과 페르소나 일관성에 초점을 맞추어 실제 세계 대화가 제기하는 독특한 도전 과제를 이해합니다. LLM이 생성한 대화와 비교함으로써, 합성 대화가 종종 포착하지 못하는 다양한 감정 표현과 페르소나 안정성의 변동성과 같은 주요 차이점을 강조합니다. 이러한 통찰을 바탕으로, 우리는 두 가지 벤치마크 과제를 소개합니다: (1) 특정 사용자를 대신하여 이전 대화 맥락을 고려하여 대화를 이어가는 페르소나 시뮬레이션; (2) 과거 상호작용의 장기 기억을 요구하는 타겟 질문에 답하는 메모리 프로빙. 우리의 연구 결과는 모델이 대화 기록만으로 사용자를 시뮬레이션하는 데 어려움을 겪는 반면, 특정 사용자의 채팅에 대한 미세 조정은 페르소나 모방을 개선한다는 것을 보여줍니다. 또한, 기존 모델들은 실제 세계 대화 내에서 장기 맥락을 기억하고 활용하는 데 상당한 어려움을 겪고 있습니다.
English
Long-term, open-domain dialogue capabilities are essential for chatbots aiming to recall past interactions and demonstrate emotional intelligence (EI). Yet, most existing research relies on synthetic, LLM-generated data, leaving open questions about real-world conversational patterns. To address this gap, we introduce REALTALK, a 21-day corpus of authentic messaging app dialogues, providing a direct benchmark against genuine human interactions. We first conduct a dataset analysis, focusing on EI attributes and persona consistency to understand the unique challenges posed by real-world dialogues. By comparing with LLM-generated conversations, we highlight key differences, including diverse emotional expressions and variations in persona stability that synthetic dialogues often fail to capture. Building on these insights, we introduce two benchmark tasks: (1) persona simulation where a model continues a conversation on behalf of a specific user given prior dialogue context; and (2) memory probing where a model answers targeted questions requiring long-term memory of past interactions. Our findings reveal that models struggle to simulate a user solely from dialogue history, while fine-tuning on specific user chats improves persona emulation. Additionally, existing models face significant challenges in recalling and leveraging long-term context within real-world conversations.

Summary

AI-Generated Summary

PDF52February 20, 2025