ChatPaper.aiChatPaper

Ausnutzung von befehlsfolgenden Retrieval-Systemen für die Beschaffung bösartiger Informationen

Exploiting Instruction-Following Retrievers for Malicious Information Retrieval

March 11, 2025
Autoren: Parishad BehnamGhader, Nicholas Meade, Siva Reddy
cs.AI

Zusammenfassung

Instruktionsfolgende Retriever wurden in der Praxis häufig neben großen Sprachmodellen (LLMs) eingesetzt, jedoch wurde bisher wenig Arbeit in die Untersuchung der Sicherheitsrisiken im Zusammenhang mit ihren zunehmenden Suchfähigkeiten investiert. Wir untersuchen empirisch die Fähigkeit von Retrievern, bösartige Anfragen zu erfüllen, sowohl bei direkter Nutzung als auch in einem retrieval-augmented-generation-basierten Setup. Konkret analysieren wir sechs führende Retriever, darunter NV-Embed und LLM2Vec, und stellen fest, dass die meisten Retriever bei bösartigen Anfragen (für >50 % der Anfragen) relevante schädliche Passagen auswählen können. Beispielsweise wählt LLM2Vec für 61,35 % unserer bösartigen Anfragen korrekt entsprechende Passagen aus. Darüber hinaus decken wir ein aufkommendes Risiko bei instruktionsfolgenden Retrievern auf, bei dem hochrelevante schädliche Informationen durch die Ausnutzung ihrer instruktionsfolgenden Fähigkeiten aufgedeckt werden können. Schließlich zeigen wir, dass sogar sicherheitsausgerichtete LLMs wie Llama3 bösartige Anfragen erfüllen können, wenn ihnen schädliche, im Kontext abgerufene Passagen bereitgestellt werden. Zusammenfassend unterstreichen unsere Ergebnisse die Risiken des bösartigen Missbrauchs, die mit der steigenden Fähigkeit von Retrievern verbunden sind.
English
Instruction-following retrievers have been widely adopted alongside LLMs in real-world applications, but little work has investigated the safety risks surrounding their increasing search capabilities. We empirically study the ability of retrievers to satisfy malicious queries, both when used directly and when used in a retrieval augmented generation-based setup. Concretely, we investigate six leading retrievers, including NV-Embed and LLM2Vec, and find that given malicious requests, most retrievers can (for >50% of queries) select relevant harmful passages. For example, LLM2Vec correctly selects passages for 61.35% of our malicious queries. We further uncover an emerging risk with instruction-following retrievers, where highly relevant harmful information can be surfaced by exploiting their instruction-following capabilities. Finally, we show that even safety-aligned LLMs, such as Llama3, can satisfy malicious requests when provided with harmful retrieved passages in-context. In summary, our findings underscore the malicious misuse risks associated with increasing retriever capability.

Summary

AI-Generated Summary

PDF162March 12, 2025