Pre-addestramento di Modelli Linguistici per la Scoperta di Cambiamenti Diacronici
Pretraining Language Models for Diachronic Linguistic Change Discovery
April 7, 2025
Autori: Elisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato potenzialità come strumenti per la scoperta scientifica. Ciò ha suscitato un crescente interesse per il loro utilizzo in discipline umanistiche, come la linguistica storica e gli studi letterari. Questi campi spesso costruiscono argomentazioni sulla base di delimitazioni come il genere o, più rigidamente, il periodo storico. Sebbene siano stati compiuti sforzi per limitare l'inferenza a domini specifici attraverso il fine-tuning o la modifica del modello, sosteniamo che l'unica vera garanzia è il preaddestramento limitato al dominio – tipicamente una proposta costosa in termini di dati e risorse computazionali.
Dimostriamo che tecniche di preaddestramento efficiente possono produrre modelli utili su corpora troppo grandi per un'ispezione manuale agevole ma troppo piccoli per approcci "tipici" con LLM. Utilizziamo una nuova pipeline di attribuzione temporale per ottenere un dataset segmentato temporalmente in cinque fette da 10 milioni di parole ciascuna. Addestriamo due corrispondenti batterie di cinque modelli su questi segmenti di corpus, con preaddestramento efficiente e fine-tuning efficiente su Llama3-8B.
Rileviamo che i modelli preaddestrati sono più veloci da addestrare rispetto ai baseline con fine-tuning e che rispettano meglio le divisioni storiche del nostro corpus. Privilegiare velocità e precisione rispetto a una completezza a-storica consente numerosi approcci innovativi alla scoperta e verifica di ipotesi nei nostri campi di interesse. Utilizzando la linguistica diacronica come banco di prova, dimostriamo che il nostro metodo permette di rilevare un insieme diversificato di fenomeni, tra cui il cambiamento lessicale in massa, il cambiamento non lessicale (grammaticale e morfologico) e l'introduzione/obsolescenza del significato delle parole. Forniamo una pipeline pronta all'uso che consente di estendere il nostro approccio ad altri campi di interesse con solo un minimo adattamento.
English
Large language models (LLMs) have shown potential as tools for scientific
discovery. This has engendered growing interest in their use in humanistic
disciplines, such as historical linguistics and literary studies. These fields
often construct arguments on the basis of delineations like genre, or more
inflexibly, time period. Although efforts have been made to restrict inference
to specific domains via fine-tuning or model editing, we posit that the only
true guarantee is domain-restricted pretraining -- typically, a data- and
compute-expensive proposition.
We show that efficient pretraining techniques can produce useful models over
corpora too large for easy manual inspection but too small for "typical" LLM
approaches. We employ a novel date-attribution pipeline in order to obtain a
temporally-segmented dataset of five 10-million-word slices. We train two
corresponding five-model batteries over these corpus segments, efficient
pretraining and Llama3-8B parameter efficiently finetuned.
We find that the pretrained models are faster to train than the finetuned
baselines and that they better respect the historical divisions of our corpus.
Emphasizing speed and precision over a-historical comprehensiveness enables a
number of novel approaches to hypothesis discovery and testing in our target
fields. Taking up diachronic linguistics as a testbed, we show that our method
enables the detection of a diverse set of phenomena, including en masse lexical
change, non-lexical (grammatical and morphological) change, and word sense
introduction/obsolescence. We provide a ready-to-use pipeline that allows
extension of our approach to other target fields with only minimal adaptation.Summary
AI-Generated Summary