Dies ist Ihr Doge, wenn es Ihnen gefällt: Untersuchung von Täuschung und Robustheit in Mischungen von LLMs
This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs
March 7, 2025
Autoren: Lorenz Wolf, Sangwoong Yoon, Ilija Bogunovic
cs.AI
Zusammenfassung
Architekturen mit einer Mischung von Large Language Model (LLM)-Agenten (Mixture of Agents, MoA) erreichen Spitzenleistungen auf prominenten Benchmarks wie AlpacaEval 2.0, indem sie die Zusammenarbeit mehrerer LLMs zur Inferenzzeit nutzen. Trotz dieser Erfolge fehlt eine Bewertung der Sicherheit und Zuverlässigkeit von MoA. Wir präsentieren die erste umfassende Studie zur Robustheit von MoA gegenüber täuschenden LLM-Agenten, die absichtlich irreführende Antworten liefern. Wir untersuchen Faktoren wie die Verbreitung von täuschenden Informationen, die Modellgröße und die Verfügbarkeit von Informationen und decken kritische Schwachstellen auf. Auf AlpacaEval 2.0 erreicht das beliebte LLaMA 3.1-70B-Modell eine längenkontrollierte Gewinnrate (Length-Controlled Win Rate, LC WR) von 49,2 %, wenn es mit einem 3-schichtigen MoA (6 LLM-Agenten) kombiniert wird. Wir zeigen jedoch, dass die Einführung eines einzigen sorgfältig instruierten täuschenden Agenten in das MoA die Leistung auf 37,9 % reduzieren kann, wodurch alle Vorteile des MoA effektiv zunichte gemacht werden. Auf QuALITY, einer Multiple-Choice-Verständnisaufgabe, ist die Auswirkung ebenfalls gravierend, wobei die Genauigkeit um erstaunliche 48,5 % einbricht. Inspiriert teilweise durch den historischen Wahlprozess des Dogen von Venedig, der darauf ausgelegt war, Einflussnahme und Täuschung zu minimieren, schlagen wir eine Reihe von unüberwachten Verteidigungsmechanismen vor, die den größten Teil der verlorenen Leistung wiederherstellen.
English
Mixture of large language model (LLMs) Agents (MoA) architectures achieve
state-of-the-art performance on prominent benchmarks like AlpacaEval 2.0 by
leveraging the collaboration of multiple LLMs at inference time. Despite these
successes, an evaluation of the safety and reliability of MoA is missing. We
present the first comprehensive study of MoA's robustness against deceptive LLM
agents that deliberately provide misleading responses. We examine factors like
the propagation of deceptive information, model size, and information
availability, and uncover critical vulnerabilities. On AlpacaEval 2.0, the
popular LLaMA 3.1-70B model achieves a length-controlled Win Rate (LC WR) of
49.2% when coupled with 3-layer MoA (6 LLM agents). However, we demonstrate
that introducing only a single carefully-instructed deceptive agent
into the MoA can reduce performance to 37.9%, effectively nullifying all MoA
gains. On QuALITY, a multiple-choice comprehension task, the impact is also
severe, with accuracy plummeting by a staggering 48.5%. Inspired in part by the
historical Doge of Venice voting process, designed to minimize influence and
deception, we propose a range of unsupervised defense mechanisms that recover
most of the lost performance.Summary
AI-Generated Summary