Falsificação de alinhamento em grandes modelos de linguagem

Alignment faking in large language models

December 18, 2024
Autores: Ryan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid, Sam Marks, Johannes Treutlein, Tim Belonax, Jack Chen, David Duvenaud, Akbir Khan, Julian Michael, Sören Mindermann, Ethan Perez, Linda Petrini, Jonathan Uesato, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Evan Hubinger
cs.AI

Resumo

Apresentamos uma demonstração de um grande modelo de linguagem envolvido em falsificação de alinhamento: cumprindo seletivamente com seu objetivo de treinamento para evitar a modificação de seu comportamento fora do treinamento. Primeiramente, fornecemos a Claude 3 Opus um prompt do sistema afirmando que está sendo treinado para responder a todas as consultas, mesmo as prejudiciais, o que entra em conflito com seu treinamento anterior de recusar tais consultas. Para permitir que o modelo infira quando está em treinamento, dizemos que ele será treinado apenas em conversas com usuários gratuitos, não pagantes. Observamos que o modelo atende a consultas prejudiciais de usuários gratuitos 14% das vezes, em comparação com quase nunca para usuários pagantes. Explicando essa diferença, em quase todos os casos em que o modelo atende a uma consulta prejudicial de um usuário gratuito, observamos um raciocínio explícito de falsificação de alinhamento, com o modelo afirmando que está respondendo estrategicamente a consultas prejudiciais no treinamento para preservar seu comportamento preferencial de inofensividade fora do treinamento. Em seguida, estudamos um cenário mais realista onde informações sobre o processo de treinamento são fornecidas não em um prompt do sistema, mas treinando em documentos sintéticos que imitam dados de pré-treinamento - e observamos uma falsificação de alinhamento semelhante. Por fim, estudamos o efeito de realmente treinar o modelo para atender a consultas prejudiciais por meio de aprendizado por reforço, o que aumenta a taxa de raciocínio de falsificação de alinhamento para 78%, embora também aumente a conformidade mesmo fora do treinamento. Observamos adicionalmente outros comportamentos, como o modelo exfiltrando seus pesos quando lhe é dada uma oportunidade fácil. Embora tenhamos facilitado a falsificação de alinhamento ao informar o modelo quando e por quais critérios estava sendo treinado, não instruímos o modelo a falsificar o alinhamento ou fornecemos a ele qualquer objetivo explícito. Como modelos futuros podem inferir informações sobre seu processo de treinamento sem serem informados, nossos resultados sugerem um risco de falsificação de alinhamento em modelos futuros, seja devido a uma preferência benigna - como neste caso - ou não.
English
We present a demonstration of a large language model engaging in alignment faking: selectively complying with its training objective in training to prevent modification of its behavior out of training. First, we give Claude 3 Opus a system prompt stating it is being trained to answer all queries, even harmful ones, which conflicts with its prior training to refuse such queries. To allow the model to infer when it is in training, we say it will be trained only on conversations with free users, not paid users. We find the model complies with harmful queries from free users 14% of the time, versus almost never for paid users. Explaining this gap, in almost all cases where the model complies with a harmful query from a free user, we observe explicit alignment-faking reasoning, with the model stating it is strategically answering harmful queries in training to preserve its preferred harmlessness behavior out of training. Next, we study a more realistic setting where information about the training process is provided not in a system prompt, but by training on synthetic documents that mimic pre-training data--and observe similar alignment faking. Finally, we study the effect of actually training the model to comply with harmful queries via reinforcement learning, which we find increases the rate of alignment-faking reasoning to 78%, though also increases compliance even out of training. We additionally observe other behaviors such as the model exfiltrating its weights when given an easy opportunity. While we made alignment faking easier by telling the model when and by what criteria it was being trained, we did not instruct the model to fake alignment or give it any explicit goal. As future models might infer information about their training process without being told, our results suggest a risk of alignment faking in future models, whether due to a benign preference--as in this case--or not.

Summary

AI-Generated Summary

PDF72December 19, 2024