Come i nuovi dati permeano la conoscenza dei LLM e come diluirla
How new data permeates LLM knowledge and how to dilute it
April 13, 2025
Autori: Chen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler
cs.AI
Abstract
I grandi modelli linguistici apprendono e continuano ad apprendere attraverso l'accumulo di aggiornamenti basati sui gradienti, ma come singoli frammenti di nuove informazioni influenzino la conoscenza esistente, portando sia a una generalizzazione benefica che a allucinazioni problematiche, rimane poco compreso. Dimostriamo che, quando apprendono nuove informazioni, i LLM mostrano un effetto di "priming": apprendere un nuovo fatto può portare il modello ad applicare in modo inappropriato tale conoscenza in contesti non correlati. Per studiare sistematicamente questo fenomeno, introduciamo "Outlandish", un dataset accuratamente curato di 1320 campioni di testo diversificati progettati per esplorare come nuove conoscenze si diffondano attraverso la base di conoscenza esistente di un LLM. Utilizzando questo dataset, mostriamo che il grado di priming dopo l'apprendimento di nuove informazioni può essere previsto misurando la probabilità dei token delle parole chiave prima dell'apprendimento. Questa relazione si mantiene robustamente attraverso diverse architetture di modelli (PALM-2, Gemma, Llama), dimensioni e fasi di addestramento. Infine, sviluppiamo due tecniche innovative per modulare come nuove conoscenze influenzano il comportamento esistente del modello: (1) una strategia di aumento del testo a "pietre miliari" e (2) un metodo di potatura degli aggiornamenti "ignore-k". Questi approcci riducono gli effetti indesiderati del priming del 50-95% preservando la capacità del modello di apprendere nuove informazioni. Le nostre scoperte forniscono sia intuizioni empiriche su come i LLM apprendono sia strumenti pratici per migliorare la specificità dell'inserimento di conoscenze nei modelli linguistici. Ulteriori materiali: https://sunchipsster1.github.io/projects/outlandish/
English
Large language models learn and continually learn through the accumulation of
gradient-based updates, but how individual pieces of new information affect
existing knowledge, leading to both beneficial generalization and problematic
hallucination, remains poorly understood. We demonstrate that when learning new
information, LLMs exhibit a "priming" effect: learning a new fact can cause the
model to inappropriately apply that knowledge in unrelated contexts. To
systematically study this phenomenon, we introduce "Outlandish," a carefully
curated dataset of 1320 diverse text samples designed to probe how new
knowledge permeates through an LLM's existing knowledge base. Using this
dataset, we show that the degree of priming after learning new information can
be predicted by measuring the token probability of key words before learning.
This relationship holds robustly across different model architectures (PALM-2,
Gemma, Llama), sizes, and training stages. Finally, we develop two novel
techniques to modulate how new knowledge affects existing model behavior: (1) a
``stepping-stone'' text augmentation strategy and (2) an ``ignore-k'' update
pruning method. These approaches reduce undesirable priming effects by 50-95\%
while preserving the model's ability to learn new information. Our findings
provide both empirical insights into how LLMs learn and practical tools for
improving the specificity of knowledge insertion in language models. Further
materials: https://sunchipsster1.github.io/projects/outlandish/Summary
AI-Generated Summary