
단어 의미 연결: 모래 상자 바깥의 의미 모호성 해소

Word Sense Linking: Disambiguating Outside the Sandbox

December 12, 2024
저자: Andrei Stefan Bejgu, Edoardo Barba, Luigi Procopio, Alberte Fernández-Castro, Roberto Navigli


단어 의미 해결 (Word Sense Disambiguation, WSD)은 특정 맥락에서 단어를 가능한 후보군 중 가장 적합한 의미와 연관시키는 작업입니다. 이 작업은 최근에 관심을 받아 시스템이 평가된 주석 작업자 간 합의를 초과하는 성과를 얻었지만, 본 글 작성 시점에서 아직 하류 응용 프로그램을 찾는 데 어려움을 겪고 있습니다. 우리는 이러한 이유 중 하나가 WSD를 일반 텍스트에 적용하는 어려움에 있다고 주장합니다. 실제로 표준 공식에서 모델은 해결할 모든 범위가 이미 식별되었고 각 범위의 모든 가능한 후보 의미가 제공되었다는 가정 하에 작동하는데, 이는 간단하지 않은 요구 사항입니다. 본 연구에서는 입력 텍스트와 참조 의미 인벤토리가 주어진 경우, 어떤 범위를 해결해야 하는지 식별하고 그런 다음 가장 적합한 의미에 연결해야 하는 새로운 작업인 단어 의미 링킹 (Word Sense Linking, WSL)을 제안합니다. 우리는 이 작업을 위해 트랜스포머 기반 아키텍처를 제시하고, WSD의 가정을 반복적으로 완화하여 WSL로 확장된 최첨단 WSD 시스템의 성능과 이를 철저히 평가합니다. 우리의 연구가 어휘 의미론을 하류 응용 프로그램에 쉽게 통합되도록 장려할 것으로 기대합니다.
Word Sense Disambiguation (WSD) is the task of associating a word in a given context with its most suitable meaning among a set of possible candidates. While the task has recently witnessed renewed interest, with systems achieving performances above the estimated inter-annotator agreement, at the time of writing it still struggles to find downstream applications. We argue that one of the reasons behind this is the difficulty of applying WSD to plain text. Indeed, in the standard formulation, models work under the assumptions that a) all the spans to disambiguate have already been identified, and b) all the possible candidate senses of each span are provided, both of which are requirements that are far from trivial. In this work, we present a new task called Word Sense Linking (WSL) where, given an input text and a reference sense inventory, systems have to both identify which spans to disambiguate and then link them to their most suitable meaning.We put forward a transformer-based architecture for the task and thoroughly evaluate both its performance and those of state-of-the-art WSD systems scaled to WSL, iteratively relaxing the assumptions of WSD. We hope that our work will foster easier integration of lexical semantics into downstream applications.
PDF92December 13, 2024