Обучение предпочтениям раскрывает психо-консультационные навыки больших языковых моделей

Аннотация

Применение больших языковых моделей (LLM) для оказания помощи в психологическом консультировании является перспективным и значимым подходом, обусловленным существенным разрывом между потребностями пациентов и доступностью психиатрической поддержки. Однако современные LLM сталкиваются с трудностями в обеспечении стабильно эффективных ответов на высказывания клиентов, что во многом связано с отсутствием надзора на основе высококачественных данных реальных психотерапевтических сессий, доступ к которым обычно ограничен из-за соображений конфиденциальности клиентов. Кроме того, качество ответов терапевтов в доступных сессиях может значительно варьироваться в зависимости от их профессиональной подготовки и опыта. Оценка качества ответов терапевтов остается открытой проблемой. В данной работе мы решаем эти задачи, сначала предлагая набор профессиональных и всеобъемлющих принципов для оценки ответов терапевтов на высказывания клиентов. Используя эти принципы, мы создаем набор данных предпочтений PsychoCounsel-Preference, который содержит 36 тысяч высококачественных пар сравнений предпочтений. Этот набор данных соответствует предпочтениям профессиональных психотерапевтов, предоставляя надежную основу для оценки и улучшения LLM в психологическом консультировании. Эксперименты по моделированию вознаграждения и обучению на основе предпочтений демонстрируют, что PsychoCounsel-Preference является отличным ресурсом для LLM, чтобы приобрести необходимые навыки для ответов клиентам в ходе консультации. Наша наиболее согласованная модель, PsychoCounsel-Llama3-8B, достигает впечатляющего уровня успешности в 87% по сравнению с GPT-4o. Мы публикуем PsychoCounsel-Preference, PsychoCounsel-Llama3-8B и модель вознаграждения PsychoCounsel Llama3-8B-Reward для содействия исследованиям в области психологического консультирования с использованием LLM по адресу: https://hf.co/Psychotherapy-LLM.

English

Applying large language models (LLMs) to assist in psycho-counseling is an emerging and meaningful approach, driven by the significant gap between patient needs and the availability of mental health support. However, current LLMs struggle to consistently provide effective responses to client speeches, largely due to the lack of supervision from high-quality real psycho-counseling data, whose content is typically inaccessible due to client privacy concerns. Furthermore, the quality of therapists' responses in available sessions can vary significantly based on their professional training and experience. Assessing the quality of therapists' responses remains an open challenge. In this work, we address these challenges by first proposing a set of professional and comprehensive principles to evaluate therapists' responses to client speeches. Using these principles, we create a preference dataset, PsychoCounsel-Preference, which contains 36k high-quality preference comparison pairs. This dataset aligns with the preferences of professional psychotherapists, providing a robust foundation for evaluating and improving LLMs in psycho-counseling. Experiments on reward modeling and preference learning demonstrate that PsychoCounsel-Preference is an excellent resource for LLMs to acquire essential skills for responding to clients in a counseling session. Our best-aligned model, PsychoCounsel-Llama3-8B, achieves an impressive win rate of 87% against GPT-4o. We release PsychoCounsel-Preference, PsychoCounsel-Llama3-8B and the reward model PsychoCounsel Llama3-8B-Reward to facilitate the research of psycho-counseling with LLMs at: https://hf.co/Psychotherapy-LLM.

Обучение предпочтениям раскрывает психо-консультационные навыки больших языковых моделей

Preference Learning Unlocks LLMs' Psycho-Counseling Skills

Аннотация

Summary

Support