ChatPaper.aiChatPaper

TeleAntiFraud-28k: Un Dataset Audio-Testuale a Pensiero Lento per il Rilevamento di Frodi nelle Telecomunicazioni

TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

March 31, 2025
Autori: Zhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang
cs.AI

Abstract

Il rilevamento delle frodi telefoniche affronta sfide significative a causa della mancanza di dati di addestramento multimodali di alta qualità che integrano segnali audio con analisi testuali orientate al ragionamento. Per colmare questa lacuna, presentiamo TeleAntiFraud-28k, il primo dataset open-source audio-testo di "slow-thinking" specificamente progettato per l'analisi automatizzata delle frodi telefoniche. Il nostro dataset è costruito attraverso tre strategie: (1) Generazione di campioni testuali veritieri con preservazione della privacy utilizzando registrazioni di chiamate trascritte tramite riconoscimento vocale automatico (ASR) (con audio originale anonimizzato), garantendo coerenza con il mondo reale attraverso la rigenerazione tramite modelli di sintesi vocale (TTS); (2) Miglioramento semantico tramite campionamento auto-istruttivo basato su modelli linguistici di grandi dimensioni (LLM) su output ASR autentici per ampliare la copertura degli scenari; (3) Sintesi avversaria multi-agente che simula tattiche di frode emergenti attraverso scenari di comunicazione predefiniti e tipologie di frode. Il dataset generato contiene 28.511 coppie audio-testo rigorosamente processate, complete di annotazioni dettagliate per il ragionamento antifrode. Il dataset è suddiviso in tre task: classificazione degli scenari, rilevamento delle frodi, classificazione del tipo di frode. Inoltre, costruiamo TeleAntiFraud-Bench, un benchmark di valutazione standardizzato composto da istanze campionate proporzionalmente dal dataset, per facilitare test sistematici delle prestazioni dei modelli sui task di rilevamento delle frodi telefoniche. Contribuiamo anche con un modello di fine-tuning supervisionato (SFT) ottimizzato per la produzione, addestrato su dati ibridi reali/sintetici, mentre rendiamo open-source il framework di elaborazione dati per consentire l'espansione del dataset guidata dalla comunità. Questo lavoro stabilisce un framework di base per la ricerca multimodale antifrode, affrontando al contempo sfide critiche relative alla privacy dei dati e alla diversità degli scenari. Il progetto sarà rilasciato all'indirizzo https://github.com/JimmyMa99/TeleAntiFraud.
English
The detection of telecom fraud faces significant challenges due to the lack of high-quality multimodal training data that integrates audio signals with reasoning-oriented textual analysis. To address this gap, we present TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset specifically designed for automated telecom fraud analysis. Our dataset is constructed through three strategies: (1) Privacy-preserved text-truth sample generation using automatically speech recognition (ASR)-transcribed call recordings (with anonymized original audio), ensuring real-world consistency through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via large language model (LLM)-based self-instruction sampling on authentic ASR outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that simulates emerging fraud tactics through predefined communication scenarios and fraud typologies. The generated dataset contains 28,511 rigorously processed speech-text pairs, complete with detailed annotations for fraud reasoning. The dataset is divided into three tasks: scenario classification, fraud detection, fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a standardized evaluation benchmark comprising proportionally sampled instances from the dataset, to facilitate systematic testing of model performance on telecom fraud detection tasks. We also contribute a production-optimized supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while open-sourcing the data processing framework to enable community-driven dataset expansion. This work establishes a foundational framework for multimodal anti-fraud research while addressing critical challenges in data privacy and scenario diversity. The project will be released at https://github.com/JimmyMa99/TeleAntiFraud.

Summary

AI-Generated Summary

PDF122April 1, 2025