의미 중심 가설: 언어 모델은 다국어 및 다양한 형식 간에 의미 표현을 공유합니다.
The Semantic Hub Hypothesis: Language Models Share Semantic Representations Across Languages and Modalities
November 7, 2024
저자: Zhaofeng Wu, Xinyan Velocity Yu, Dani Yogatama, Jiasen Lu, Yoon Kim
cs.AI
초록
현대 언어 모델은 다양한 언어 및 형식을 통해 입력을 처리할 수 있습니다. 우리는 모델이 이 능력을 획득하는 과정에서 이질적인 데이터 유형(예: 다른 언어 및 형식) 간에 공유 표현 공간을 학습함으로써 이 능력을 습득한다고 가정합니다. 이는 의미적으로 유사한 입력을 서로 가까이 배치하여 다른 형식/언어에서 나왔더라도 서로 가깝게 배치하는 것입니다. 이를 '의미 중심 가설'이라고 명명하며, 이는 신경과학의 허브-스포크 모델(Patterson et al., 2007)을 따릅니다. 이 모델은 인간 뇌의 의미 지식이 다양한 형식별 "스포크" 영역에서 정보를 통합하는 트랜스모달 의미 "허브"를 통해 조직된다고 가정합니다. 먼저, 서로 의미적으로 동등한 입력에 대한 모델 표현이 중간층에서 유사하며, 이 공간은 모델의 주요 사전 학습 언어를 통해 로짓 렌즈를 사용하여 해석할 수 있음을 보여줍니다. 이 경향은 산술 표현, 코드, 시각/음향 입력을 포함한 다른 데이터 유형으로 확장됩니다. 한 데이터 유형에서 공유 표현 공간에 대한 개입은 다른 데이터 유형에서 모델 출력에 예측 가능하게 영향을 미치며, 이는 이 공유 표현 공간이 단순히 광범위한 데이터에 대한 대규모 학습의 유물적 부산물이 아니라 입력 처리 중에 모델에 의해 활발하게 활용되는 것을 시사합니다.
English
Modern language models can process inputs across diverse languages and
modalities. We hypothesize that models acquire this capability through learning
a shared representation space across heterogeneous data types (e.g., different
languages and modalities), which places semantically similar inputs near one
another, even if they are from different modalities/languages. We term this the
semantic hub hypothesis, following the hub-and-spoke model from neuroscience
(Patterson et al., 2007) which posits that semantic knowledge in the human
brain is organized through a transmodal semantic "hub" which integrates
information from various modality-specific "spokes" regions. We first show that
model representations for semantically equivalent inputs in different languages
are similar in the intermediate layers, and that this space can be interpreted
using the model's dominant pretraining language via the logit lens. This
tendency extends to other data types, including arithmetic expressions, code,
and visual/audio inputs. Interventions in the shared representation space in
one data type also predictably affect model outputs in other data types,
suggesting that this shared representations space is not simply a vestigial
byproduct of large-scale training on broad data, but something that is actively
utilized by the model during input processing.Summary
AI-Generated Summary