UnifiedCrawl: Geaggregeerde Common Crawl voor betaalbare aanpassing van LLM's in talen met weinig middelen

UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages

November 21, 2024
Auteurs: Bethel Melesse Tessema, Akhil Kedia, Tae-Sun Chung
cs.AI

Samenvatting

Grote taalmodellen (LLM's) presteren ondermaats bij talen met weinig bronnen vanwege beperkte trainingsdata. We presenteren een methode om efficiënt tekstgegevens te verzamelen voor talen met weinig bronnen uit het volledige Common Crawl-corpus. Onze benadering, UnifiedCrawl, filtert en extrahereert Common Crawl met minimale rekencapaciteit, resulterend in eentalige datasets die veel groter zijn dan voorheen beschikbare bronnen. We tonen aan dat het benutten van deze gegevens om meertalige LLM's fijn af te stemmen via efficiënte adaptermethoden (QLoRA) de prestaties aanzienlijk verbetert voor de taal met weinig bronnen, terwijl het VRAM-gebruik wordt geminimaliseerd. Onze experimenten tonen grote verbeteringen in perplexiteit van taalmodellering en een toename in scores voor prompten met weinig voorbeelden. Ons werk en vrijgegeven broncode bieden een betaalbare benadering om LLM's voor talen met weinig bronnen te verbeteren met behulp van consumentenhardware. Onze broncode is hier beschikbaar op https://github.com/bethelmelesse/unifiedcrawl.
English
Large language models (LLMs) under-perform on low-resource languages due to limited training data. We present a method to efficiently collect text data for low-resource languages from the entire Common Crawl corpus. Our approach, UnifiedCrawl, filters and extracts common crawl using minimal compute resources, yielding mono-lingual datasets much larger than previously available sources. We demonstrate that leveraging this data to fine-tuning multilingual LLMs via efficient adapter methods (QLoRA) significantly boosts performance on the low-resource language, while minimizing VRAM usage. Our experiments show large improvements in language modeling perplexity and an increase in few-shot prompting scores. Our work and released source code provide an affordable approach to improve LLMs for low-resource languages using consumer hardware. Our source code is available here at https://github.com/bethelmelesse/unifiedcrawl.

Summary

AI-Generated Summary

PDF42November 22, 2024