Infettare l'IA Generativa con Virus.

Abstract

Questo studio dimostra un approccio innovativo per testare i limiti di sicurezza dei Modelli di Linguaggio di Visione-Large (VLM/LLM) utilizzando il file di test EICAR incorporato in immagini JPEG. Abbiamo eseguito con successo quattro protocolli distinti su diverse piattaforme LLM, tra cui OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro e Anthropic Claude 3.5 Sonnet. Gli esperimenti hanno confermato che un JPEG modificato contenente la firma EICAR poteva essere caricato, manipolato e potenzialmente eseguito all'interno degli spazi di lavoro virtuali LLM. Le principali scoperte includono: 1) la capacità costante di mascherare la stringa EICAR nei metadati dell'immagine senza essere rilevata, 2) l'estrazione riuscita del file di test utilizzando manipolazioni basate su Python all'interno degli ambienti LLM, e 3) la dimostrazione di varie tecniche di offuscamento, inclusa la codifica base64 e l'inversione delle stringhe. Questa ricerca estende il framework "Penetration Testing Rules of Engagement" di Microsoft Research per valutare i limiti di sicurezza dell'IA generativa basata su cloud e dei LLM, concentrandosi in particolare sulle capacità di gestione e esecuzione dei file all'interno di ambienti containerizzati.

English

This study demonstrates a novel approach to testing the security boundaries of Vision-Large Language Model (VLM/ LLM) using the EICAR test file embedded within JPEG images. We successfully executed four distinct protocols across multiple LLM platforms, including OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro, and Anthropic Claude 3.5 Sonnet. The experiments validated that a modified JPEG containing the EICAR signature could be uploaded, manipulated, and potentially executed within LLM virtual workspaces. Key findings include: 1) consistent ability to mask the EICAR string in image metadata without detection, 2) successful extraction of the test file using Python-based manipulation within LLM environments, and 3) demonstration of multiple obfuscation techniques including base64 encoding and string reversal. This research extends Microsoft Research's "Penetration Testing Rules of Engagement" framework to evaluate cloud-based generative AI and LLM security boundaries, particularly focusing on file handling and execution capabilities within containerized environments.

Infettare l'IA Generativa con Virus.

Infecting Generative AI With Viruses

Abstract

Support