확률적 발견 가능 추출을 통해 기억력 측정하기

Measuring memorization through probabilistic discoverable extraction

October 25, 2024
저자: Jamie Hayes, Marika Swanberg, Harsh Chaudhari, Itay Yona, Ilia Shumailov
cs.AI

초록

대규모 언어 모델(LLMs)은 훈련 데이터를 기억하기 쉽기 때문에 민감한 정보 추출 가능성으로 인한 우려가 제기되고 있습니다. 현재 LLMs의 기억률을 측정하는 방법 중 하나인 발견 가능한 추출(Carlini et al., 2022)은 주로 단일 시퀀스 탐욕 샘플링에 의존하며, 실제 기억의 범위를 과소평가할 수 있습니다. 본 논문에서는 발견 가능한 추출의 확률적 완화를 소개하여 생성된 샘플 집합 내에서 대상 시퀀스를 추출할 확률을 측정하며, 다양한 샘플링 방법과 여러 시도를 고려합니다. 이 접근 방식은 LLMs의 확률적 성격과 사용자 상호작용 패턴을 고려하여 발견 가능한 추출을 통한 기억률 보고의 한계를 극복합니다. 실험 결과는 이 확률적 측정이 발견 가능한 추출을 통해 발견된 기억률보다 높은 기억률 사례를 밝혀냄을 보여줍니다. 또한 다른 샘플링 방법이 추출 가능성에 미치는 영향을 조사하여 LLMs의 기억과 관련된 위험을 보다 포괄적이고 현실적으로 평가합니다. 우리의 기여는 새로운 확률적 기억 정의, 그 효과성에 대한 경험적 증거, 그리고 다양한 모델, 크기, 샘플링 방법, 훈련 데이터 반복에 걸친 철저한 평가를 포함합니다.
English
Large language models (LLMs) are susceptible to memorizing training data, raising concerns due to the potential extraction of sensitive information. Current methods to measure memorization rates of LLMs, primarily discoverable extraction (Carlini et al., 2022), rely on single-sequence greedy sampling, potentially underestimating the true extent of memorization. This paper introduces a probabilistic relaxation of discoverable extraction that quantifies the probability of extracting a target sequence within a set of generated samples, considering various sampling schemes and multiple attempts. This approach addresses the limitations of reporting memorization rates through discoverable extraction by accounting for the probabilistic nature of LLMs and user interaction patterns. Our experiments demonstrate that this probabilistic measure can reveal cases of higher memorization rates compared to rates found through discoverable extraction. We further investigate the impact of different sampling schemes on extractability, providing a more comprehensive and realistic assessment of LLM memorization and its associated risks. Our contributions include a new probabilistic memorization definition, empirical evidence of its effectiveness, and a thorough evaluation across different models, sizes, sampling schemes, and training data repetitions.

Summary

AI-Generated Summary

PDF42November 16, 2024