Quadro LLM Docente-Studente per la Classificazione del Testo Senza Dati Annotati Manualmente: Uno Studio di Caso nella Classificazione degli Argomenti delle Notizie IPTC

Abstract

Con il sempre crescente numero di notizie disponibili online, classificarle per argomento, indipendentemente dalla lingua in cui sono scritte, è diventato cruciale per migliorare l'accesso dei lettori ai contenuti rilevanti. Per affrontare questa sfida, proponiamo un framework insegnante-studente basato su grandi modelli linguistici (LLM) per lo sviluppo di modelli multilingue di classificazione delle notizie di dimensioni ragionevoli senza necessità di annotazione manuale dei dati. Il framework utilizza un modello Generative Pretrained Transformer (GPT) come modello insegnante per sviluppare un dataset di addestramento IPTC Media Topic tramite annotazione automatica di articoli di notizie in sloveno, croato, greco e catalano. Il modello insegnante mostra un'elevata performance zero-shot in tutte e quattro le lingue. Il suo accordo con gli annotatori umani è paragonabile a quello tra gli stessi annotatori umani. Per mitigare le limitazioni computazionali associate alla necessità di elaborare milioni di testi quotidianamente, modelli studente più piccoli simili a BERT vengono sintonizzati sul dataset annotato da GPT. Questi modelli studente raggiungono alte performance paragonabili al modello insegnante. Inoltre, esploriamo l'impatto delle dimensioni dei dati di addestramento sulle performance dei modelli studente e indaghiamo sulle loro capacità monolingue, multilingue e zero-shot cross-lingual. I risultati indicano che i modelli studente possono raggiungere alte performance con un numero relativamente piccolo di istanze di addestramento e dimostrano forti capacità zero-shot cross-lingual. Infine, pubblichiamo il classificatore di argomenti di notizie più performante, consentendo la classificazione multilingue con le categorie di alto livello dello schema IPTC Media Topic.

English

With the ever-increasing number of news stories available online, classifying them by topic, regardless of the language they are written in, has become crucial for enhancing readers' access to relevant content. To address this challenge, we propose a teacher-student framework based on large language models (LLMs) for developing multilingual news classification models of reasonable size with no need for manual data annotation. The framework employs a Generative Pretrained Transformer (GPT) model as the teacher model to develop an IPTC Media Topic training dataset through automatic annotation of news articles in Slovenian, Croatian, Greek, and Catalan. The teacher model exhibits a high zero-shot performance on all four languages. Its agreement with human annotators is comparable to that between the human annotators themselves. To mitigate the computational limitations associated with the requirement of processing millions of texts daily, smaller BERT-like student models are fine-tuned on the GPT-annotated dataset. These student models achieve high performance comparable to the teacher model. Furthermore, we explore the impact of the training data size on the performance of the student models and investigate their monolingual, multilingual and zero-shot cross-lingual capabilities. The findings indicate that student models can achieve high performance with a relatively small number of training instances, and demonstrate strong zero-shot cross-lingual abilities. Finally, we publish the best-performing news topic classifier, enabling multilingual classification with the top-level categories of the IPTC Media Topic schema.

Quadro LLM Docente-Studente per la Classificazione del Testo Senza Dati Annotati Manualmente: Uno Studio di Caso nella Classificazione degli Argomenti delle Notizie IPTC

LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Abstract

Support