Mesurer la mémorisation à travers l'extraction probabiliste découvrable.

Résumé

Les grands modèles de langage (LLM) sont susceptibles de mémoriser les données d'entraînement, soulevant des préoccupations en raison du risque d'extraction d'informations sensibles. Les méthodes actuelles pour mesurer les taux de mémorisation des LLM, principalement l'extraction découvrable (Carlini et al., 2022), reposent sur un échantillonnage avide de séquences uniques, sous-estimant potentiellement l'étendue réelle de la mémorisation. Cet article introduit une relaxation probabiliste de l'extraction découvrable qui quantifie la probabilité d'extraire une séquence cible parmi un ensemble d'échantillons générés, en tenant compte de divers schémas d'échantillonnage et de multiples tentatives. Cette approche aborde les limites de la déclaration des taux de mémorisation par l'extraction découvrable en tenant compte de la nature probabiliste des LLM et des schémas d'interaction des utilisateurs. Nos expériences démontrent que cette mesure probabiliste peut révéler des cas de taux de mémorisation plus élevés par rapport aux taux trouvés par l'extraction découvrable. Nous étudions également l'impact des différents schémas d'échantillonnage sur l'extractibilité, offrant une évaluation plus complète et réaliste de la mémorisation des LLM et de ses risques associés. Nos contributions comprennent une nouvelle définition probabiliste de la mémorisation, des preuves empiriques de son efficacité, et une évaluation approfondie à travers différents modèles, tailles, schémas d'échantillonnage et répétitions des données d'entraînement.

English

Large language models (LLMs) are susceptible to memorizing training data, raising concerns due to the potential extraction of sensitive information. Current methods to measure memorization rates of LLMs, primarily discoverable extraction (Carlini et al., 2022), rely on single-sequence greedy sampling, potentially underestimating the true extent of memorization. This paper introduces a probabilistic relaxation of discoverable extraction that quantifies the probability of extracting a target sequence within a set of generated samples, considering various sampling schemes and multiple attempts. This approach addresses the limitations of reporting memorization rates through discoverable extraction by accounting for the probabilistic nature of LLMs and user interaction patterns. Our experiments demonstrate that this probabilistic measure can reveal cases of higher memorization rates compared to rates found through discoverable extraction. We further investigate the impact of different sampling schemes on extractability, providing a more comprehensive and realistic assessment of LLM memorization and its associated risks. Our contributions include a new probabilistic memorization definition, empirical evidence of its effectiveness, and a thorough evaluation across different models, sizes, sampling schemes, and training data repetitions.

Mesurer la mémorisation à travers l'extraction probabiliste découvrable.

Measuring memorization through probabilistic discoverable extraction

Résumé

Support