UnifiedCrawl : Common Crawl Agrégé pour l'Adaptation Abordable des LLMs dans les Langues à Faibles Ressources

UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages

November 21, 2024
Auteurs: Bethel Melesse Tessema, Akhil Kedia, Tae-Sun Chung
cs.AI

Résumé

Les grands modèles de langage (LLM) sous-performent sur les langues à faibles ressources en raison de données d'entraînement limitées. Nous présentons une méthode pour collecter efficacement des données textuelles pour les langues à faibles ressources à partir de l'ensemble du corpus Common Crawl. Notre approche, UnifiedCrawl, filtre et extrait Common Crawl en utilisant des ressources informatiques minimales, produisant des ensembles de données monolingues beaucoup plus importants que les sources précédemment disponibles. Nous démontrons que l'exploitation de ces données pour affiner les LLM multilingues via des méthodes d'adaptation efficaces (QLoRA) améliore significativement les performances sur la langue à faibles ressources, tout en minimisant l'utilisation de la VRAM. Nos expériences montrent de grandes améliorations en termes de perplexité de modélisation linguistique et une augmentation des scores de déclenchement en quelques exemples. Notre travail et le code source publié offrent une approche abordable pour améliorer les LLM pour les langues à faibles ressources en utilisant du matériel grand public. Notre code source est disponible ici : https://github.com/bethelmelesse/unifiedcrawl.
English
Large language models (LLMs) under-perform on low-resource languages due to limited training data. We present a method to efficiently collect text data for low-resource languages from the entire Common Crawl corpus. Our approach, UnifiedCrawl, filters and extracts common crawl using minimal compute resources, yielding mono-lingual datasets much larger than previously available sources. We demonstrate that leveraging this data to fine-tuning multilingual LLMs via efficient adapter methods (QLoRA) significantly boosts performance on the low-resource language, while minimizing VRAM usage. Our experiments show large improvements in language modeling perplexity and an increase in few-shot prompting scores. Our work and released source code provide an affordable approach to improve LLMs for low-resource languages using consumer hardware. Our source code is available here at https://github.com/bethelmelesse/unifiedcrawl.

Summary

AI-Generated Summary

PDF42November 22, 2024