ChatPaper.aiChatPaper

ExaGPT: 인간 해석 가능성을 위한 예제 기반 기계 생성 텍스트 탐지

ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability

February 17, 2025
저자: Ryuto Koike, Masahiro Kaneko, Ayana Niwa, Preslav Nakov, Naoaki Okazaki
cs.AI

초록

대형 언어 모델(LLM)에 의해 생성된 텍스트를 탐지하는 것은 잘못된 결정으로 인해 심각한 실수를 초래할 수 있으며, 이는 학생의 학문적 품위를 훼손하는 등의 문제를 야기할 수 있습니다. 따라서 LLM 텍스트 탐지는 결정의 해석 가능성을 보장해야 하며, 이를 통해 사용자가 예측의 신뢰성을 판단할 수 있도록 해야 합니다. 인간이 텍스트가 인간이 작성한 것인지 아니면 LLM이 생성한 것인지 확인할 때, 그들은 직관적으로 텍스트가 어느 쪽과 더 유사한 구간을 공유하는지 조사합니다. 그러나 기존의 해석 가능한 탐지기들은 인간의 의사결정 과정과 일치하지 않으며, 사용자가 쉽게 이해할 수 있는 증거를 제공하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 텍스트의 출처를 검증하기 위한 인간의 의사결정 과정에 기반한 해석 가능한 탐지 접근법인 ExaGPT를 소개합니다. ExaGPT는 텍스트가 데이터 저장소에서 인간이 작성한 텍스트와 더 유사한 구간을 공유하는지, 아니면 LLM이 생성한 텍스트와 더 유사한 구간을 공유하는지를 확인하여 텍스트를 식별합니다. 이 접근법은 텍스트의 각 구간에 대한 결정에 기여하는 유사 구간 예시를 증거로 제공할 수 있습니다. 우리의 인간 평가는 유사 구간 예시를 제공하는 것이 기존의 해석 가능한 방법보다 결정의 정확성을 판단하는 데 더 효과적으로 기여한다는 것을 보여줍니다. 또한, 네 가지 도메인과 세 가지 생성기에 대한 광범위한 실험을 통해 ExaGPT가 기존의 강력한 탐지기들을 최대 40.9%의 정확도 차이로 크게 능가하며, 1%의 오탐률에서도 우수한 성능을 보임을 확인했습니다.
English
Detecting texts generated by Large Language Models (LLMs) could cause grave mistakes due to incorrect decisions, such as undermining student's academic dignity. LLM text detection thus needs to ensure the interpretability of the decision, which can help users judge how reliably correct its prediction is. When humans verify whether a text is human-written or LLM-generated, they intuitively investigate with which of them it shares more similar spans. However, existing interpretable detectors are not aligned with the human decision-making process and fail to offer evidence that users easily understand. To bridge this gap, we introduce ExaGPT, an interpretable detection approach grounded in the human decision-making process for verifying the origin of a text. ExaGPT identifies a text by checking whether it shares more similar spans with human-written vs. with LLM-generated texts from a datastore. This approach can provide similar span examples that contribute to the decision for each span in the text as evidence. Our human evaluation demonstrates that providing similar span examples contributes more effectively to judging the correctness of the decision than existing interpretable methods. Moreover, extensive experiments in four domains and three generators show that ExaGPT massively outperforms prior powerful detectors by up to +40.9 points of accuracy at a false positive rate of 1%.

Summary

AI-Generated Summary

PDF02February 19, 2025