Het meten van memorisatie door middel van probabilistische ontdekbare extractie.
Measuring memorization through probabilistic discoverable extraction
October 25, 2024
Auteurs: Jamie Hayes, Marika Swanberg, Harsh Chaudhari, Itay Yona, Ilia Shumailov
cs.AI
Samenvatting
Grote taalmodellen (LLM's) zijn vatbaar voor het memoriseren van trainingsgegevens, wat zorgen oproept vanwege de mogelijke extractie van gevoelige informatie. Huidige methoden om de memorisatiesnelheden van LLM's te meten, zoals voornamelijk ontdekbare extractie (Carlini et al., 2022), vertrouwen op enkelvoudige hebberige bemonstering, waarbij mogelijk de ware omvang van memorisatie wordt onderschat. Dit artikel introduceert een probabilistische versoepeling van ontdekbare extractie die de kans kwantificeert om een doelsequentie te extraheren binnen een reeks gegenereerde monsters, rekening houdend met verschillende bemonsteringsschema's en meerdere pogingen. Deze benadering adresseert de beperkingen van het rapporteren van memorisatiesnelheden via ontdekbare extractie door rekening te houden met de probabilistische aard van LLM's en gebruikersinteractiepatronen. Onze experimenten tonen aan dat deze probabilistische maatstaf gevallen van hogere memorisatiesnelheden kan onthullen in vergelijking met snelheden gevonden via ontdekbare extractie. We onderzoeken verder de impact van verschillende bemonsteringsschema's op extracteerbaarheid, wat zorgt voor een meer uitgebreide en realistische beoordeling van LLM-memorisatie en de bijbehorende risico's. Onze bijdragen omvatten een nieuwe probabilistische memorisatiedefinitie, empirisch bewijs van de effectiviteit ervan, en een grondige evaluatie over verschillende modellen, groottes, bemonsteringsschema's en herhalingen van trainingsgegevens.
English
Large language models (LLMs) are susceptible to memorizing training data,
raising concerns due to the potential extraction of sensitive information.
Current methods to measure memorization rates of LLMs, primarily discoverable
extraction (Carlini et al., 2022), rely on single-sequence greedy sampling,
potentially underestimating the true extent of memorization. This paper
introduces a probabilistic relaxation of discoverable extraction that
quantifies the probability of extracting a target sequence within a set of
generated samples, considering various sampling schemes and multiple attempts.
This approach addresses the limitations of reporting memorization rates through
discoverable extraction by accounting for the probabilistic nature of LLMs and
user interaction patterns. Our experiments demonstrate that this probabilistic
measure can reveal cases of higher memorization rates compared to rates found
through discoverable extraction. We further investigate the impact of different
sampling schemes on extractability, providing a more comprehensive and
realistic assessment of LLM memorization and its associated risks. Our
contributions include a new probabilistic memorization definition, empirical
evidence of its effectiveness, and a thorough evaluation across different
models, sizes, sampling schemes, and training data repetitions.Summary
AI-Generated Summary