ChatPaper.aiChatPaper

Социальные рамки согласования могут повысить эффективность согласования языковых моделей.

Societal Alignment Frameworks Can Improve LLM Alignment

February 27, 2025
Авторы: Karolina Stańczak, Nicholas Meade, Mehar Bhatia, Hattie Zhou, Konstantin Böttinger, Jeremy Barnes, Jason Stanley, Jessica Montgomery, Richard Zemel, Nicolas Papernot, Nicolas Chapados, Denis Therien, Timothy P. Lillicrap, Ana Marasović, Sylvie Delacroix, Gillian K. Hadfield, Siva Reddy
cs.AI

Аннотация

Недавние достижения в области больших языковых моделей (LLM) сосредоточены на создании ответов, которые соответствуют ожиданиям людей и согласуются с общими ценностями — процесс, получивший название "согласование" (alignment). Однако согласование LLM остается сложной задачей из-за присущего разрыва между сложностью человеческих ценностей и узким характером технологических подходов, разработанных для их учета. Современные методы согласования часто приводят к неверно определенным целям, что отражает более широкую проблему неполных контрактов — невозможность создания контракта между разработчиком модели и самой моделью, который учитывал бы каждый сценарий в согласовании LLM. В этой статье мы утверждаем, что улучшение согласования LLM требует включения идей из социальных, экономических и контрактных рамок согласования, и обсуждаем потенциальные решения, заимствованные из этих областей. Учитывая роль неопределенности в рамках социального согласования, мы исследуем, как она проявляется в согласовании LLM. Завершая обсуждение, мы предлагаем альтернативный взгляд на согласование LLM, рассматривая недостаточно определенный характер его целей как возможность, а не как необходимость их совершенствования. Помимо технических улучшений в согласовании LLM, мы обсуждаем необходимость разработки интерфейсов для участия в процессе согласования.
English
Recent progress in large language models (LLMs) has focused on producing responses that meet human expectations and align with shared values - a process coined alignment. However, aligning LLMs remains challenging due to the inherent disconnect between the complexity of human values and the narrow nature of the technological approaches designed to address them. Current alignment methods often lead to misspecified objectives, reflecting the broader issue of incomplete contracts, the impracticality of specifying a contract between a model developer, and the model that accounts for every scenario in LLM alignment. In this paper, we argue that improving LLM alignment requires incorporating insights from societal alignment frameworks, including social, economic, and contractual alignment, and discuss potential solutions drawn from these domains. Given the role of uncertainty within societal alignment frameworks, we then investigate how it manifests in LLM alignment. We end our discussion by offering an alternative view on LLM alignment, framing the underspecified nature of its objectives as an opportunity rather than perfect their specification. Beyond technical improvements in LLM alignment, we discuss the need for participatory alignment interface designs.

Summary

AI-Generated Summary

PDF162March 5, 2025