수동으로 주석이 달린 데이터가 없는 텍스트 분류를 위한 LLM 교사-학생 프레임워크: IPTC 뉴스 주제 분류 사례 연구
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification
November 29, 2024
저자: Taja Kuzman, Nikola Ljubešić
cs.AI
초록
온라인에서 제공되는 뉴스 이야기의 수가 계속해서 증가함에 따라, 언어와 관계없이 주제별로 분류하는 것이 관련 콘텐츠에 대한 독자들의 접근성을 향상시키는 데 중요해졌습니다. 이러한 도전에 대응하기 위해, 우리는 대규모 언어 모델 (LLMs)을 기반으로 한 교사-학생 프레임워크를 제안하여 수작업 데이터 주석이 필요 없는 합리적 크기의 다국어 뉴스 분류 모델을 개발합니다. 이 프레임워크는 교사 모델로 Generative Pretrained Transformer (GPT) 모델을 활용하여 슬로베니아어, 크로아티아어, 그리스어 및 카탈로니아어의 뉴스 기사를 자동 주석 처리하여 IPTC 미디어 주제 교육 데이터셋을 개발합니다. 교사 모델은 네 언어 모두에서 높은 제로샷 성능을 나타냅니다. 인간 주석자들 간의 일치와 유사한 수준의 결과를 보여줍니다. 매일 수백만 개의 텍스트를 처리해야 하는 계산상의 제약을 완화하기 위해, GPT로 주석 처리된 데이터셋에서 작은 BERT와 유사한 학생 모델을 파인튜닝합니다. 이러한 학생 모델은 교사 모델과 유사한 높은 성능을 달성합니다. 또한, 학생 모델의 성능에 대한 훈련 데이터 크기의 영향을 탐구하고, 그들의 단일 언어, 다국어 및 제로샷 교차 언어 능력을 조사합니다. 연구 결과는 학생 모델이 상대적으로 적은 수의 훈련 인스턴스로 높은 성능을 달성할 수 있으며, 강력한 제로샷 교차 언어 능력을 보여준다는 것을 나타냅니다. 마지막으로, 우리는 최고 성능의 뉴스 주제 분류기를 공개하여 IPTC 미디어 주제 스키마의 최상위 범주를 사용한 다국어 분류를 가능하게 합니다.
English
With the ever-increasing number of news stories available online, classifying
them by topic, regardless of the language they are written in, has become
crucial for enhancing readers' access to relevant content. To address this
challenge, we propose a teacher-student framework based on large language
models (LLMs) for developing multilingual news classification models of
reasonable size with no need for manual data annotation. The framework employs
a Generative Pretrained Transformer (GPT) model as the teacher model to develop
an IPTC Media Topic training dataset through automatic annotation of news
articles in Slovenian, Croatian, Greek, and Catalan. The teacher model exhibits
a high zero-shot performance on all four languages. Its agreement with human
annotators is comparable to that between the human annotators themselves. To
mitigate the computational limitations associated with the requirement of
processing millions of texts daily, smaller BERT-like student models are
fine-tuned on the GPT-annotated dataset. These student models achieve high
performance comparable to the teacher model. Furthermore, we explore the impact
of the training data size on the performance of the student models and
investigate their monolingual, multilingual and zero-shot cross-lingual
capabilities. The findings indicate that student models can achieve high
performance with a relatively small number of training instances, and
demonstrate strong zero-shot cross-lingual abilities. Finally, we publish the
best-performing news topic classifier, enabling multilingual classification
with the top-level categories of the IPTC Media Topic schema.Summary
AI-Generated Summary