ChatPaper.aiChatPaper

ELTEX: Ein Framework für domänengetriebene synthetische Datengenerierung

ELTEX: A Framework for Domain-Driven Synthetic Data Generation

March 19, 2025
Autoren: Arina Razmyslovich, Kseniia Murasheva, Sofia Sedlova, Julien Capitaine, Eugene Dmitriev
cs.AI

Zusammenfassung

Wir stellen ELTEX (Efficient LLM Token Extraction) vor, ein domänengetriebenes Framework zur Generierung hochwertiger synthetischer Trainingsdaten in spezialisierten Domänen. Während Large Language Models (LLMs) beeindruckende allgemeine Fähigkeiten gezeigt haben, bleibt ihre Leistung in spezialisierten Domänen wie der Cybersicherheit durch den Mangel an domänenspezifischen Trainingsdaten begrenzt. ELTEX adressiert diese Herausforderung, indem es die explizite Extraktion von Domänenindikatoren systematisch mit dynamischem Prompting kombiniert, um kritisches Domänenwissen während des Generierungsprozesses zu bewahren. Wir demonstrieren die Wirksamkeit von ELTEX im Kontext der Erkennung von Blockchain-bezogenen Cyberangriffen, bei dem wir Gemma-2B mit verschiedenen Kombinationen aus realen und ELTEX-generierten Daten feinabstimmen. Unsere Ergebnisse zeigen, dass das ELTEX-verbesserte Modell eine mit GPT-4 vergleichbare Leistung sowohl bei standardmäßigen Klassifikationsmetriken als auch bei der Unsicherheitskalibrierung erzielt, während es deutlich weniger Rechenressourcen benötigt. Wir veröffentlichen einen kuratierten synthetischen Datensatz von Social-Media-Texten zur Erkennung von Cyberangriffen in der Blockchain. Unsere Arbeit zeigt, dass domänengetriebene synthetische Datengenerierung die Leistungslücke zwischen ressourceneffizienten Modellen und größeren Architekturen in spezialisierten Domänen effektiv schließen kann.
English
We present ELTEX (Efficient LLM Token Extraction), a domain-driven framework for generating high-quality synthetic training data in specialized domains. While Large Language Models (LLMs) have shown impressive general capabilities, their performance in specialized domains like cybersecurity remains limited by the scarcity of domain-specific training data. ELTEX addresses this challenge by systematically integrating explicit domain indicator extraction with dynamic prompting to preserve critical domain knowledge throughout the generation process. We demonstrate ELTEX's effectiveness in the context of blockchain-related cyberattack detection, where we fine-tune Gemma-2B using various combinations of real and ELTEX-generated data. Our results show that the ELTEX-enhanced model achieves performance competitive with GPT-4 across both standard classification metrics and uncertainty calibration, while requiring significantly fewer computational resources. We release a curated synthetic dataset of social media texts for cyberattack detection in blockchain. Our work demonstrates that domain-driven synthetic data generation can effectively bridge the performance gap between resource-efficient models and larger architectures in specialized domains.

Summary

AI-Generated Summary

PDF62March 20, 2025