CBT-Bench: Evaluierung großer Sprachmodelle zur Unterstützung der kognitiven Verhaltenstherapie
CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy
October 17, 2024
Autoren: Mian Zhang, Xianjun Yang, Xinlu Zhang, Travis Labrum, Jamie C. Chiu, Shaun M. Eack, Fei Fang, William Yang Wang, Zhiyu Zoey Chen
cs.AI
Zusammenfassung
Es besteht eine signifikante Kluft zwischen den Bedürfnissen der Patienten und der verfügbaren psychischen Gesundheitsunterstützung heute. In diesem Papier zielen wir darauf ab, das Potenzial des Einsatzes von Large Language Models (LLMs) zur Unterstützung der professionellen Psychotherapie eingehend zu untersuchen. Zu diesem Zweck schlagen wir einen neuen Benchmark, CBT-BENCH, zur systematischen Bewertung der kognitiven Verhaltenstherapie (CBT) Unterstützung vor. Wir umfassen drei Ebenen von Aufgaben in CBT-BENCH: I: Grundlagen des CBT-Wissenserwerbs, mit der Aufgabe von Multiple-Choice-Fragen; II: Verständnis des kognitiven Modells, mit den Aufgaben der Klassifizierung kognitiver Verzerrungen, der Klassifizierung primärer Kernüberzeugungen und der feingliedrigen Kernüberzeugungsklassifizierung; III: Generierung therapeutischer Antworten, mit der Aufgabe, Antworten auf die Äußerungen der Patienten in CBT-Therapiesitzungen zu generieren. Diese Aufgaben umfassen Schlüsselaspekte der CBT, die potenziell durch KI-Unterstützung verbessert werden könnten, und skizzieren gleichzeitig eine Hierarchie der Leistungsanforderungen, die von der einfachen Wissensrezitation bis hin zur Beteiligung an echten therapeutischen Gesprächen reicht. Wir haben repräsentative LLMs auf unserem Benchmark evaluiert. Die experimentellen Ergebnisse deuten darauf hin, dass LLMs zwar gut darin sind, CBT-Wissen zu rezitieren, jedoch in komplexen realen Szenarien, die eine eingehende Analyse der kognitiven Strukturen der Patienten und die Generierung effektiver Antworten erfordern, nicht ausreichen, was auf mögliche zukünftige Arbeiten hinweist.
English
There is a significant gap between patient needs and available mental health
support today. In this paper, we aim to thoroughly examine the potential of
using Large Language Models (LLMs) to assist professional psychotherapy. To
this end, we propose a new benchmark, CBT-BENCH, for the systematic evaluation
of cognitive behavioral therapy (CBT) assistance. We include three levels of
tasks in CBT-BENCH: I: Basic CBT knowledge acquisition, with the task of
multiple-choice questions; II: Cognitive model understanding, with the tasks of
cognitive distortion classification, primary core belief classification, and
fine-grained core belief classification; III: Therapeutic response generation,
with the task of generating responses to patient speech in CBT therapy
sessions. These tasks encompass key aspects of CBT that could potentially be
enhanced through AI assistance, while also outlining a hierarchy of capability
requirements, ranging from basic knowledge recitation to engaging in real
therapeutic conversations. We evaluated representative LLMs on our benchmark.
Experimental results indicate that while LLMs perform well in reciting CBT
knowledge, they fall short in complex real-world scenarios requiring deep
analysis of patients' cognitive structures and generating effective responses,
suggesting potential future work.Summary
AI-Generated Summary