Sia il testo che le immagini sono trapelati! Un'Analisi Sistematica della Contaminazione dei Dati Multimodali LLM

Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

November 6, 2024
Autori: Dingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang
cs.AI

Abstract

La rapida progressione dei modelli linguistici multimodali di grandi dimensioni (MLLM) ha dimostrato prestazioni superiori su vari benchmark multimodali. Tuttavia, la questione della contaminazione dei dati durante l'addestramento crea sfide nell'valutazione delle prestazioni e nel confronto. Sebbene esistano numerosi metodi per rilevare la contaminazione del dataset nei grandi modelli linguistici (LLM), sono meno efficaci per i MLLM a causa delle loro varie modalità e delle molteplici fasi di addestramento. In questo studio, presentiamo un framework di rilevamento della contaminazione dei dati multimodale, MM-Detect, progettato per i MLLM. I nostri risultati sperimentali indicano che MM-Detect è sensibile a diversi gradi di contaminazione e può evidenziare significativi miglioramenti delle prestazioni dovuti alla fuoriuscita del set di addestramento dei benchmark multimodali. Inoltre, esploriamo anche la possibilità che la contaminazione possa originare dalla fase di pre-addestramento dei LLM utilizzati dai MLLM e dalla fase di raffinamento dei MLLM, offrendo nuove prospettive sulle fasi in cui la contaminazione potrebbe essere introdotta.
English
The rapid progression of multimodal large language models (MLLMs) has demonstrated superior performance on various multimodal benchmarks. However, the issue of data contamination during training creates challenges in performance evaluation and comparison. While numerous methods exist for detecting dataset contamination in large language models (LLMs), they are less effective for MLLMs due to their various modalities and multiple training phases. In this study, we introduce a multimodal data contamination detection framework, MM-Detect, designed for MLLMs. Our experimental results indicate that MM-Detect is sensitive to varying degrees of contamination and can highlight significant performance improvements due to leakage of the training set of multimodal benchmarks. Furthermore, We also explore the possibility of contamination originating from the pre-training phase of LLMs used by MLLMs and the fine-tuning phase of MLLMs, offering new insights into the stages at which contamination may be introduced.

Summary

AI-Generated Summary

PDF452November 13, 2024