UnifiedCrawl: Geaggregeerde Common Crawl voor betaalbare aanpassing van LLM's in talen met weinig middelen
UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages
November 21, 2024
Auteurs: Bethel Melesse Tessema, Akhil Kedia, Tae-Sun Chung
cs.AI
Samenvatting
Grote taalmodellen (LLM's) presteren ondermaats bij talen met weinig bronnen vanwege beperkte trainingsdata. We presenteren een methode om efficiënt tekstgegevens te verzamelen voor talen met weinig bronnen uit het volledige Common Crawl-corpus. Onze benadering, UnifiedCrawl, filtert en extrahereert Common Crawl met minimale rekencapaciteit, resulterend in eentalige datasets die veel groter zijn dan voorheen beschikbare bronnen. We tonen aan dat het benutten van deze gegevens om meertalige LLM's fijn af te stemmen via efficiënte adaptermethoden (QLoRA) de prestaties aanzienlijk verbetert voor de taal met weinig bronnen, terwijl het VRAM-gebruik wordt geminimaliseerd. Onze experimenten tonen grote verbeteringen in perplexiteit van taalmodellering en een toename in scores voor prompten met weinig voorbeelden. Ons werk en vrijgegeven broncode bieden een betaalbare benadering om LLM's voor talen met weinig bronnen te verbeteren met behulp van consumentenhardware. Onze broncode is hier beschikbaar op https://github.com/bethelmelesse/unifiedcrawl.
English
Large language models (LLMs) under-perform on low-resource languages due to
limited training data. We present a method to efficiently collect text data for
low-resource languages from the entire Common Crawl corpus. Our approach,
UnifiedCrawl, filters and extracts common crawl using minimal compute
resources, yielding mono-lingual datasets much larger than previously available
sources. We demonstrate that leveraging this data to fine-tuning multilingual
LLMs via efficient adapter methods (QLoRA) significantly boosts performance on
the low-resource language, while minimizing VRAM usage. Our experiments show
large improvements in language modeling perplexity and an increase in few-shot
prompting scores. Our work and released source code provide an affordable
approach to improve LLMs for low-resource languages using consumer hardware.
Our source code is available here at
https://github.com/bethelmelesse/unifiedcrawl.Summary
AI-Generated Summary