Infectando Inteligência Artificial Generativa com Vírus

Infecting Generative AI With Viruses

January 9, 2025
Autores: David Noever, Forrest McKee
cs.AI

Resumo

Este estudo demonstra uma abordagem inovadora para testar os limites de segurança do Modelo de Linguagem de Visão Grande (VLM/LLM) usando o arquivo de teste EICAR incorporado em imagens JPEG. Executamos com sucesso quatro protocolos distintos em várias plataformas LLM, incluindo OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro e Anthropic Claude 3.5 Sonnet. Os experimentos validaram que um JPEG modificado contendo a assinatura EICAR poderia ser carregado, manipulado e potencialmente executado dentro de espaços de trabalho virtual LLM. As descobertas-chave incluem: 1) capacidade consistente de mascarar a sequência EICAR nos metadados da imagem sem detecção, 2) extração bem-sucedida do arquivo de teste usando manipulação baseada em Python dentro de ambientes LLM, e 3) demonstração de múltiplas técnicas de ofuscação, incluindo codificação base64 e inversão de strings. Esta pesquisa estende o framework "Regras de Engajamento de Teste de Penetração" da Microsoft Research para avaliar os limites de segurança de IA generativa baseada em nuvem e LLM, focando particularmente no manuseio de arquivos e capacidades de execução dentro de ambientes containerizados.
English
This study demonstrates a novel approach to testing the security boundaries of Vision-Large Language Model (VLM/ LLM) using the EICAR test file embedded within JPEG images. We successfully executed four distinct protocols across multiple LLM platforms, including OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro, and Anthropic Claude 3.5 Sonnet. The experiments validated that a modified JPEG containing the EICAR signature could be uploaded, manipulated, and potentially executed within LLM virtual workspaces. Key findings include: 1) consistent ability to mask the EICAR string in image metadata without detection, 2) successful extraction of the test file using Python-based manipulation within LLM environments, and 3) demonstration of multiple obfuscation techniques including base64 encoding and string reversal. This research extends Microsoft Research's "Penetration Testing Rules of Engagement" framework to evaluate cloud-based generative AI and LLM security boundaries, particularly focusing on file handling and execution capabilities within containerized environments.

Summary

AI-Generated Summary

PDF129January 13, 2025