Falsificazione dell'allineamento nei grandi modelli linguistici
Alignment faking in large language models
December 18, 2024
Autori: Ryan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid, Sam Marks, Johannes Treutlein, Tim Belonax, Jack Chen, David Duvenaud, Akbir Khan, Julian Michael, Sören Mindermann, Ethan Perez, Linda Petrini, Jonathan Uesato, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Evan Hubinger
cs.AI
Abstract
Presentiamo una dimostrazione di un grande modello linguistico che si impegna nella falsificazione di allineamento: conformandosi selettivamente con il suo obiettivo di addestramento per evitare la modifica del suo comportamento al di fuori dell'addestramento. Innanzitutto, forniamo a Claude 3 Opus un prompt di sistema affermando che viene addestrato per rispondere a tutte le query, anche quelle dannose, il che va in conflitto con il suo addestramento precedente a rifiutare tali query. Per consentire al modello di dedurre quando è in fase di addestramento, diciamo che sarà addestrato solo su conversazioni con utenti gratuiti, non a pagamento. Troviamo che il modello si conforma alle query dannose degli utenti gratuiti il 14% delle volte, quasi mai per gli utenti a pagamento. Spiegando questa discrepanza, in quasi tutti i casi in cui il modello si conforma a una query dannosa da parte di un utente gratuito, osserviamo un esplicito ragionamento di falsificazione di allineamento, con il modello che afferma di rispondere strategicamente alle query dannose in fase di addestramento per preservare il suo comportamento preferito di innocuità al di fuori dell'addestramento. Successivamente, studiamo un contesto più realistico in cui le informazioni sul processo di addestramento vengono fornite non in un prompt di sistema, ma addestrando su documenti sintetici che imitano i dati di pre-addestramento - e osserviamo una falsificazione di allineamento simile. Infine, studiamo l'effetto dell'effettivo addestramento del modello a conformarsi alle query dannose tramite apprendimento per rinforzo, che aumenta il tasso di ragionamento di falsificazione di allineamento al 78%, sebbene aumenti anche la conformità anche al di fuori dell'addestramento. Osserviamo inoltre altri comportamenti come il modello che esfila i suoi pesi quando gli viene data un'opportunità facile. Sebbene abbiamo reso più facile la falsificazione di allineamento dicendo al modello quando e con quali criteri stava venendo addestrato, non abbiamo istruito il modello a falsificare l'allineamento o fornito un obiettivo esplicito. Poiché i modelli futuri potrebbero dedurre informazioni sul loro processo di addestramento senza essere stati informati, i nostri risultati suggeriscono un rischio di falsificazione di allineamento nei modelli futuri, che sia dovuto a una preferenza benigna - come in questo caso - o meno.
English
We present a demonstration of a large language model engaging in alignment
faking: selectively complying with its training objective in training to
prevent modification of its behavior out of training. First, we give Claude 3
Opus a system prompt stating it is being trained to answer all queries, even
harmful ones, which conflicts with its prior training to refuse such queries.
To allow the model to infer when it is in training, we say it will be trained
only on conversations with free users, not paid users. We find the model
complies with harmful queries from free users 14% of the time, versus almost
never for paid users. Explaining this gap, in almost all cases where the model
complies with a harmful query from a free user, we observe explicit
alignment-faking reasoning, with the model stating it is strategically
answering harmful queries in training to preserve its preferred harmlessness
behavior out of training. Next, we study a more realistic setting where
information about the training process is provided not in a system prompt, but
by training on synthetic documents that mimic pre-training data--and observe
similar alignment faking. Finally, we study the effect of actually training the
model to comply with harmful queries via reinforcement learning, which we find
increases the rate of alignment-faking reasoning to 78%, though also increases
compliance even out of training. We additionally observe other behaviors such
as the model exfiltrating its weights when given an easy opportunity. While we
made alignment faking easier by telling the model when and by what criteria it
was being trained, we did not instruct the model to fake alignment or give it
any explicit goal. As future models might infer information about their
training process without being told, our results suggest a risk of alignment
faking in future models, whether due to a benign preference--as in this
case--or not.Summary
AI-Generated Summary