Het volgen van universele kenmerken door middel van fijnafstemming en model samenvoeging

Samenvatting

We onderzoeken hoe kenmerken ontstaan, verdwijnen en aanwezig blijven in modellen die fijnafgestemd zijn op verschillende domeinen van tekst. Meer specifiek vertrekken we van een basis éénlaags Transformer-taalmodel dat getraind is op een combinatie van het BabyLM-corpus en een verzameling Python-code van The Stack. Dit basismodel wordt aangepast aan twee nieuwe tekst domeinen: TinyStories en de Lua-programmeertaal, respectievelijk; en vervolgens worden deze twee modellen samengevoegd door middel van sferische lineaire interpolatie. Onze verkenning heeft tot doel diepere inzichten te bieden in de stabiliteit en transformatie van kenmerken in typische transfer-leerscenario's met behulp van kleinschalige modellen en schaarse auto-encoders.

English

We study how features emerge, disappear, and persist across models fine-tuned on different domains of text. More specifically, we start from a base one-layer Transformer language model that is trained on a combination of the BabyLM corpus, and a collection of Python code from The Stack. This base model is adapted to two new domains of text: TinyStories, and the Lua programming language, respectively; and then these two models are merged using these two models using spherical linear interpolation. Our exploration aims to provide deeper insights into the stability and transformation of features across typical transfer-learning scenarios using small-scale models and sparse auto-encoders.

Het volgen van universele kenmerken door middel van fijnafstemming en model samenvoeging

Tracking Universal Features Through Fine-Tuning and Model Merging

Samenvatting

Support