Обучение предпочтениям раскрывает психо-консультационные навыки больших языковых моделей
Preference Learning Unlocks LLMs' Psycho-Counseling Skills
February 27, 2025
Авторы: Mian Zhang, Shaun M. Eack, Zhiyu Zoey Chen
cs.AI
Аннотация
Применение больших языковых моделей (LLM) для оказания помощи в психологическом консультировании является перспективным и значимым подходом, обусловленным существенным разрывом между потребностями пациентов и доступностью психиатрической поддержки. Однако современные LLM сталкиваются с трудностями в обеспечении стабильно эффективных ответов на высказывания клиентов, что во многом связано с отсутствием надзора на основе высококачественных данных реальных психотерапевтических сессий, доступ к которым обычно ограничен из-за соображений конфиденциальности клиентов. Кроме того, качество ответов терапевтов в доступных сессиях может значительно варьироваться в зависимости от их профессиональной подготовки и опыта. Оценка качества ответов терапевтов остается открытой проблемой. В данной работе мы решаем эти задачи, сначала предлагая набор профессиональных и всеобъемлющих принципов для оценки ответов терапевтов на высказывания клиентов. Используя эти принципы, мы создаем набор данных предпочтений PsychoCounsel-Preference, который содержит 36 тысяч высококачественных пар сравнений предпочтений. Этот набор данных соответствует предпочтениям профессиональных психотерапевтов, предоставляя надежную основу для оценки и улучшения LLM в психологическом консультировании. Эксперименты по моделированию вознаграждения и обучению на основе предпочтений демонстрируют, что PsychoCounsel-Preference является отличным ресурсом для LLM, чтобы приобрести необходимые навыки для ответов клиентам в ходе консультации. Наша наиболее согласованная модель, PsychoCounsel-Llama3-8B, достигает впечатляющего уровня успешности в 87% по сравнению с GPT-4o. Мы публикуем PsychoCounsel-Preference, PsychoCounsel-Llama3-8B и модель вознаграждения PsychoCounsel Llama3-8B-Reward для содействия исследованиям в области психологического консультирования с использованием LLM по адресу: https://hf.co/Psychotherapy-LLM.
English
Applying large language models (LLMs) to assist in psycho-counseling is an
emerging and meaningful approach, driven by the significant gap between patient
needs and the availability of mental health support. However, current LLMs
struggle to consistently provide effective responses to client speeches,
largely due to the lack of supervision from high-quality real psycho-counseling
data, whose content is typically inaccessible due to client privacy concerns.
Furthermore, the quality of therapists' responses in available sessions can
vary significantly based on their professional training and experience.
Assessing the quality of therapists' responses remains an open challenge. In
this work, we address these challenges by first proposing a set of professional
and comprehensive principles to evaluate therapists' responses to client
speeches. Using these principles, we create a preference dataset,
PsychoCounsel-Preference, which contains 36k high-quality preference comparison
pairs. This dataset aligns with the preferences of professional
psychotherapists, providing a robust foundation for evaluating and improving
LLMs in psycho-counseling. Experiments on reward modeling and preference
learning demonstrate that PsychoCounsel-Preference is an excellent resource for
LLMs to acquire essential skills for responding to clients in a counseling
session. Our best-aligned model, PsychoCounsel-Llama3-8B, achieves an
impressive win rate of 87% against GPT-4o. We release PsychoCounsel-Preference,
PsychoCounsel-Llama3-8B and the reward model PsychoCounsel Llama3-8B-Reward to
facilitate the research of psycho-counseling with LLMs at:
https://hf.co/Psychotherapy-LLM.Summary
AI-Generated Summary