CBT-Bench : Évaluation des grands modèles de langage dans l'assistance à la thérapie cognitivo-comportementale
CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy
October 17, 2024
Auteurs: Mian Zhang, Xianjun Yang, Xinlu Zhang, Travis Labrum, Jamie C. Chiu, Shaun M. Eack, Fei Fang, William Yang Wang, Zhiyu Zoey Chen
cs.AI
Résumé
Il existe un écart significatif entre les besoins des patients et le soutien disponible en santé mentale aujourd'hui. Dans cet article, nous visons à examiner en profondeur le potentiel de l'utilisation des Grands Modèles de Langue (GML) pour assister la psychothérapie professionnelle. À cette fin, nous proposons un nouveau banc d'essai, CBT-BENCH, pour l'évaluation systématique de l'assistance à la thérapie cognitivo-comportementale (TCC). Nous incluons trois niveaux de tâches dans CBT-BENCH : I : Acquisition des connaissances de base en TCC, avec la tâche de questions à choix multiples ; II : Compréhension du modèle cognitif, avec les tâches de classification des distorsions cognitives, de classification des croyances centrales primaires et de classification des croyances centrales détaillées ; III : Génération de réponses thérapeutiques, avec la tâche de générer des réponses au discours du patient lors des séances de thérapie TCC. Ces tâches englobent des aspects clés de la TCC qui pourraient potentiellement être améliorés grâce à l'assistance de l'IA, tout en décrivant également une hiérarchie des exigences en matière de capacité, allant de la simple récitation des connaissances de base à l'engagement dans de véritables conversations thérapeutiques. Nous avons évalué des GML représentatifs sur notre banc d'essai. Les résultats expérimentaux indiquent que si les GML se débrouillent bien pour réciter les connaissances en TCC, ils sont en difficulté dans des scénarios réels complexes nécessitant une analyse approfondie des structures cognitives des patients et la génération de réponses efficaces, suggérant des travaux futurs potentiels.
English
There is a significant gap between patient needs and available mental health
support today. In this paper, we aim to thoroughly examine the potential of
using Large Language Models (LLMs) to assist professional psychotherapy. To
this end, we propose a new benchmark, CBT-BENCH, for the systematic evaluation
of cognitive behavioral therapy (CBT) assistance. We include three levels of
tasks in CBT-BENCH: I: Basic CBT knowledge acquisition, with the task of
multiple-choice questions; II: Cognitive model understanding, with the tasks of
cognitive distortion classification, primary core belief classification, and
fine-grained core belief classification; III: Therapeutic response generation,
with the task of generating responses to patient speech in CBT therapy
sessions. These tasks encompass key aspects of CBT that could potentially be
enhanced through AI assistance, while also outlining a hierarchy of capability
requirements, ranging from basic knowledge recitation to engaging in real
therapeutic conversations. We evaluated representative LLMs on our benchmark.
Experimental results indicate that while LLMs perform well in reciting CBT
knowledge, they fall short in complex real-world scenarios requiring deep
analysis of patients' cognitive structures and generating effective responses,
suggesting potential future work.Summary
AI-Generated Summary