CBT-Bench: Evaluierung großer Sprachmodelle zur Unterstützung der kognitiven Verhaltenstherapie

Zusammenfassung

Es besteht eine signifikante Kluft zwischen den Bedürfnissen der Patienten und der verfügbaren psychischen Gesundheitsunterstützung heute. In diesem Papier zielen wir darauf ab, das Potenzial des Einsatzes von Large Language Models (LLMs) zur Unterstützung der professionellen Psychotherapie eingehend zu untersuchen. Zu diesem Zweck schlagen wir einen neuen Benchmark, CBT-BENCH, zur systematischen Bewertung der kognitiven Verhaltenstherapie (CBT) Unterstützung vor. Wir umfassen drei Ebenen von Aufgaben in CBT-BENCH: I: Grundlagen des CBT-Wissenserwerbs, mit der Aufgabe von Multiple-Choice-Fragen; II: Verständnis des kognitiven Modells, mit den Aufgaben der Klassifizierung kognitiver Verzerrungen, der Klassifizierung primärer Kernüberzeugungen und der feingliedrigen Kernüberzeugungsklassifizierung; III: Generierung therapeutischer Antworten, mit der Aufgabe, Antworten auf die Äußerungen der Patienten in CBT-Therapiesitzungen zu generieren. Diese Aufgaben umfassen Schlüsselaspekte der CBT, die potenziell durch KI-Unterstützung verbessert werden könnten, und skizzieren gleichzeitig eine Hierarchie der Leistungsanforderungen, die von der einfachen Wissensrezitation bis hin zur Beteiligung an echten therapeutischen Gesprächen reicht. Wir haben repräsentative LLMs auf unserem Benchmark evaluiert. Die experimentellen Ergebnisse deuten darauf hin, dass LLMs zwar gut darin sind, CBT-Wissen zu rezitieren, jedoch in komplexen realen Szenarien, die eine eingehende Analyse der kognitiven Strukturen der Patienten und die Generierung effektiver Antworten erfordern, nicht ausreichen, was auf mögliche zukünftige Arbeiten hinweist.

English

There is a significant gap between patient needs and available mental health support today. In this paper, we aim to thoroughly examine the potential of using Large Language Models (LLMs) to assist professional psychotherapy. To this end, we propose a new benchmark, CBT-BENCH, for the systematic evaluation of cognitive behavioral therapy (CBT) assistance. We include three levels of tasks in CBT-BENCH: I: Basic CBT knowledge acquisition, with the task of multiple-choice questions; II: Cognitive model understanding, with the tasks of cognitive distortion classification, primary core belief classification, and fine-grained core belief classification; III: Therapeutic response generation, with the task of generating responses to patient speech in CBT therapy sessions. These tasks encompass key aspects of CBT that could potentially be enhanced through AI assistance, while also outlining a hierarchy of capability requirements, ranging from basic knowledge recitation to engaging in real therapeutic conversations. We evaluated representative LLMs on our benchmark. Experimental results indicate that while LLMs perform well in reciting CBT knowledge, they fall short in complex real-world scenarios requiring deep analysis of patients' cognitive structures and generating effective responses, suggesting potential future work.

CBT-Bench: Evaluierung großer Sprachmodelle zur Unterstützung der kognitiven Verhaltenstherapie

CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy

Zusammenfassung

Summary

Support