동일하지만 다른 것: 다국어 언어 모델링에서의 구조적 유사점과 차이점
The Same But Different: Structural Similarities and Differences in Multilingual Language Modeling
October 11, 2024
저자: Ruochen Zhang, Qinan Yu, Matianyu Zang, Carsten Eickhoff, Ellie Pavlick
cs.AI
초록
우리는 기계적 해석 가능성에서 새로운 도구를 활용하여 대형 언어 모델 (LLM)의 내부 구조가 그들이 훈련을 받은 언어의 기저가 되는 언어 구조와 일치하는지를 조사합니다. 특히, 우리는 (1) 두 언어가 동일한 형태-통사적 과정을 사용할 때 LLM이 이를 공유된 내부 회로를 사용하여 처리하는지, 그리고 (2) 두 언어가 서로 다른 형태-통사적 과정을 요구할 때 LLM이 이를 다른 내부 회로를 사용하여 처리하는지를 묻습니다. 영어와 중국어 다중 및 단일 언어 모델을 사용하여 두 가지 작업에 관여하는 내부 회로를 분석합니다. 우리는 모델이 동일한 구문적 과정을 처리하기 위해 동일한 회로를 사용하며, 이는 해당 언어와는 무관하게 발생하는 경우에도 동일하다는 증거를 찾아냅니다. 또한, 우리는 다중 언어 모델이 언어별 구성 요소 (주의 헤드와 피드포워드 네트워크)를 사용하여 필요한 경우 일부 언어에만 존재하는 언어적 과정 (예: 형태 표시)을 처리하는 데 사용함을 보여줍니다. 이러한 결과들은 LLM이 여러 언어를 동시에 모델링하는 과제를 수행할 때 공통 구조를 활용하고 언어적 차이를 보존하는 사이에서 어떻게 균형을 맞추는지에 대한 새로운 통찰을 제공합니다.
English
We employ new tools from mechanistic interpretability in order to ask whether
the internal structure of large language models (LLMs) shows correspondence to
the linguistic structures which underlie the languages on which they are
trained. In particular, we ask (1) when two languages employ the same
morphosyntactic processes, do LLMs handle them using shared internal circuitry?
and (2) when two languages require different morphosyntactic processes, do LLMs
handle them using different internal circuitry? Using English and Chinese
multilingual and monolingual models, we analyze the internal circuitry involved
in two tasks. We find evidence that models employ the same circuit to handle
the same syntactic process independently of the language in which it occurs,
and that this is the case even for monolingual models trained completely
independently. Moreover, we show that multilingual models employ
language-specific components (attention heads and feed-forward networks) when
needed to handle linguistic processes (e.g., morphological marking) that only
exist in some languages. Together, our results provide new insights into how
LLMs trade off between exploiting common structures and preserving linguistic
differences when tasked with modeling multiple languages simultaneously.Summary
AI-Generated Summary