TeleAntiFraud-28k: Un Dataset Audio-Testuale a Pensiero Lento per il Rilevamento di Frodi nelle Telecomunicazioni
TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
March 31, 2025
Autori: Zhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang
cs.AI
Abstract
Il rilevamento delle frodi telefoniche affronta sfide significative a causa della mancanza di dati di addestramento multimodali di alta qualità che integrano segnali audio con analisi testuali orientate al ragionamento. Per colmare questa lacuna, presentiamo TeleAntiFraud-28k, il primo dataset open-source audio-testo di "slow-thinking" specificamente progettato per l'analisi automatizzata delle frodi telefoniche. Il nostro dataset è costruito attraverso tre strategie: (1) Generazione di campioni testuali veritieri con preservazione della privacy utilizzando registrazioni di chiamate trascritte tramite riconoscimento vocale automatico (ASR) (con audio originale anonimizzato), garantendo coerenza con il mondo reale attraverso la rigenerazione tramite modelli di sintesi vocale (TTS); (2) Miglioramento semantico tramite campionamento auto-istruttivo basato su modelli linguistici di grandi dimensioni (LLM) su output ASR autentici per ampliare la copertura degli scenari; (3) Sintesi avversaria multi-agente che simula tattiche di frode emergenti attraverso scenari di comunicazione predefiniti e tipologie di frode. Il dataset generato contiene 28.511 coppie audio-testo rigorosamente processate, complete di annotazioni dettagliate per il ragionamento antifrode. Il dataset è suddiviso in tre task: classificazione degli scenari, rilevamento delle frodi, classificazione del tipo di frode. Inoltre, costruiamo TeleAntiFraud-Bench, un benchmark di valutazione standardizzato composto da istanze campionate proporzionalmente dal dataset, per facilitare test sistematici delle prestazioni dei modelli sui task di rilevamento delle frodi telefoniche. Contribuiamo anche con un modello di fine-tuning supervisionato (SFT) ottimizzato per la produzione, addestrato su dati ibridi reali/sintetici, mentre rendiamo open-source il framework di elaborazione dati per consentire l'espansione del dataset guidata dalla comunità. Questo lavoro stabilisce un framework di base per la ricerca multimodale antifrode, affrontando al contempo sfide critiche relative alla privacy dei dati e alla diversità degli scenari. Il progetto sarà rilasciato all'indirizzo https://github.com/JimmyMa99/TeleAntiFraud.
English
The detection of telecom fraud faces significant challenges due to the lack
of high-quality multimodal training data that integrates audio signals with
reasoning-oriented textual analysis. To address this gap, we present
TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset
specifically designed for automated telecom fraud analysis. Our dataset is
constructed through three strategies: (1) Privacy-preserved text-truth sample
generation using automatically speech recognition (ASR)-transcribed call
recordings (with anonymized original audio), ensuring real-world consistency
through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via
large language model (LLM)-based self-instruction sampling on authentic ASR
outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that
simulates emerging fraud tactics through predefined communication scenarios and
fraud typologies. The generated dataset contains 28,511 rigorously processed
speech-text pairs, complete with detailed annotations for fraud reasoning. The
dataset is divided into three tasks: scenario classification, fraud detection,
fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a
standardized evaluation benchmark comprising proportionally sampled instances
from the dataset, to facilitate systematic testing of model performance on
telecom fraud detection tasks. We also contribute a production-optimized
supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while
open-sourcing the data processing framework to enable community-driven dataset
expansion. This work establishes a foundational framework for multimodal
anti-fraud research while addressing critical challenges in data privacy and
scenario diversity. The project will be released at
https://github.com/JimmyMa99/TeleAntiFraud.Summary
AI-Generated Summary