LongKey: Estrazione di Frasi Chiave per Documenti Lunghi
LongKey: Keyphrase Extraction for Long Documents
November 26, 2024
Autori: Jeovane Honorio Alves, Radu State, Cinthia Obladen de Almendra Freitas, Jean Paul Barddal
cs.AI
Abstract
In un'era di sovraccarico di informazioni, annotare manualmente il vasto e crescente corpus di documenti e articoli accademici è sempre più impraticabile. L'estrazione automatica di parole chiave affronta questa sfida identificando termini rappresentativi all'interno dei testi. Tuttavia, la maggior parte dei metodi esistenti si concentra su documenti brevi (fino a 512 token), lasciando una lacuna nel trattamento di documenti con un contesto lungo. In questo articolo, presentiamo LongKey, un nuovo framework per l'estrazione di parole chiave da documenti lunghi, che utilizza un modello linguistico basato su encoder per catturare le complessità del testo esteso. LongKey utilizza un embedder di max-pooling per migliorare la rappresentazione dei candidati parole chiave. Validato sui completi set di dati LDKP e su sei set di dati diversi e inediti, LongKey supera costantemente i metodi esistenti di estrazione di parole chiave non supervisionati e basati su modelli linguistici. I nostri risultati dimostrano la versatilità e le prestazioni superiori di LongKey, segnando un progresso nell'estrazione di parole chiave per varie lunghezze e domini di testo.
English
In an era of information overload, manually annotating the vast and growing
corpus of documents and scholarly papers is increasingly impractical. Automated
keyphrase extraction addresses this challenge by identifying representative
terms within texts. However, most existing methods focus on short documents (up
to 512 tokens), leaving a gap in processing long-context documents. In this
paper, we introduce LongKey, a novel framework for extracting keyphrases from
lengthy documents, which uses an encoder-based language model to capture
extended text intricacies. LongKey uses a max-pooling embedder to enhance
keyphrase candidate representation. Validated on the comprehensive LDKP
datasets and six diverse, unseen datasets, LongKey consistently outperforms
existing unsupervised and language model-based keyphrase extraction methods.
Our findings demonstrate LongKey's versatility and superior performance,
marking an advancement in keyphrase extraction for varied text lengths and
domains.Summary
AI-Generated Summary