맥락은 중요하다(NMF): 중국 디아스포라 미디어에서 주제 정보 역학 모델링
Context is Key(NMF): Modelling Topical Information Dynamics in Chinese Diaspora Media
October 16, 2024
저자: Ross Deans Kristensen-McLachlan, Rebecca M. M. Hicke, Márton Kardos, Mette Thunø
cs.AI
초록
중화인민공화국(중국)이 유럽 선거에 중국계 이민민들의 언론을 통해 개입하는가? 이 질문은 중국계 이민민 언론에서 중국의 유럽 선거에 대한 이야기가 어떻게 표현되는지, 이에 따라 중국의 뉴스 미디어 조작 목표가 무엇인지를 탐구하는 진행 중인 연구 프로젝트의 기초를 형성한다. 이민민 언론을 효율적이고 규모 있는 방식으로 연구하기 위해, 주제 모델링과 같은 양적 텍스트 분석 기법에서 파생된 기술을 사용하는 것이 필요하다. 본 논문에서는 중국 미디어의 정보 역학을 연구하기 위한 파이프라인을 제시한다. 먼저, 트랜스포머 기반의 맥락 임베딩 모델을 사용한 정적 및 동적 주제 모델링에 대한 새로운 접근 방식인 KeyNMF를 제시한다. 우리의 방법이 중국 데이터셋과 메트릭에서 경쟁력이 있는 것을 증명하기 위해 벤치마크 평가를 제공한다. 둘째, KeyNMF를 복잡한 시스템에서 정보 역학을 설명하는 기존 방법과 통합한다. 우리는 2024년 유럽 의회 선거를 앞두고 있는 기간에 초점을 맞춘 다섯 개의 뉴스 사이트 데이터에 이 파이프라인을 적용한다. 우리의 방법과 결과는 중국 미디어의 정보 역학을 연구하는 데 KeyNMF의 효과를 입증하고, 더 넓은 연구 문제에 대한 추가 작업의 기초를 마련한다.
English
Does the People's Republic of China (PRC) interfere with European elections
through ethnic Chinese diaspora media? This question forms the basis of an
ongoing research project exploring how PRC narratives about European elections
are represented in Chinese diaspora media, and thus the objectives of PRC news
media manipulation. In order to study diaspora media efficiently and at scale,
it is necessary to use techniques derived from quantitative text analysis, such
as topic modelling. In this paper, we present a pipeline for studying
information dynamics in Chinese media. Firstly, we present KeyNMF, a new
approach to static and dynamic topic modelling using transformer-based
contextual embedding models. We provide benchmark evaluations to demonstrate
that our approach is competitive on a number of Chinese datasets and metrics.
Secondly, we integrate KeyNMF with existing methods for describing information
dynamics in complex systems. We apply this pipeline to data from five news
sites, focusing on the period of time leading up to the 2024 European
parliamentary elections. Our methods and results demonstrate the effectiveness
of KeyNMF for studying information dynamics in Chinese media and lay groundwork
for further work addressing the broader research questions.Summary
AI-Generated Summary