Vermeidungstechniken für die Erkennung von großen Sprachmodellen
Detection Avoidance Techniques for Large Language Models
March 10, 2025
Autoren: Sinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek
cs.AI
Zusammenfassung
Die zunehmende Popularität großer Sprachmodelle hat nicht nur zu einer weitverbreiteten Nutzung geführt, sondern auch verschiedene Risiken mit sich gebracht, darunter die Möglichkeit, systematisch Fake News zu verbreiten. Infolgedessen ist die Entwicklung von Klassifikationssystemen wie DetectGPT von entscheidender Bedeutung geworden. Diese Detektoren sind jedoch anfällig für Umgehungstechniken, wie eine experimentelle Reihe gezeigt hat: Systematische Änderungen der Temperatur der generativen Modelle erwiesen sich als am wenigsten zuverlässig gegenüber oberflächlichen Lern-Detektoren. Die Feinabstimmung des generativen Modells durch Reinforcement Learning umging BERT-basierte Detektoren. Schließlich führte das Umformulieren zu einer >90\%igen Umgehung von Zero-Shot-Detektoren wie DetectGPT, obwohl die Texte dem Original sehr ähnlich blieben. Ein Vergleich mit bestehenden Arbeiten hebt die bessere Leistung der vorgestellten Methoden hervor. Mögliche gesellschaftliche Auswirkungen und weitere Forschungsrichtungen werden diskutiert.
English
The increasing popularity of large language models has not only led to
widespread use but has also brought various risks, including the potential for
systematically spreading fake news. Consequently, the development of
classification systems such as DetectGPT has become vital. These detectors are
vulnerable to evasion techniques, as demonstrated in an experimental series:
Systematic changes of the generative models' temperature proofed shallow
learning-detectors to be the least reliable. Fine-tuning the generative model
via reinforcement learning circumvented BERT-based-detectors. Finally,
rephrasing led to a >90\% evasion of zero-shot-detectors like DetectGPT,
although texts stayed highly similar to the original. A comparison with
existing work highlights the better performance of the presented methods.
Possible implications for society and further research are discussed.Summary
AI-Generated Summary