UnifiedCrawl : Common Crawl Agrégé pour l'Adaptation Abordable des LLMs dans les Langues à Faibles Ressources
UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages
November 21, 2024
Auteurs: Bethel Melesse Tessema, Akhil Kedia, Tae-Sun Chung
cs.AI
Résumé
Les grands modèles de langage (LLM) sous-performent sur les langues à faibles ressources en raison de données d'entraînement limitées. Nous présentons une méthode pour collecter efficacement des données textuelles pour les langues à faibles ressources à partir de l'ensemble du corpus Common Crawl. Notre approche, UnifiedCrawl, filtre et extrait Common Crawl en utilisant des ressources informatiques minimales, produisant des ensembles de données monolingues beaucoup plus importants que les sources précédemment disponibles. Nous démontrons que l'exploitation de ces données pour affiner les LLM multilingues via des méthodes d'adaptation efficaces (QLoRA) améliore significativement les performances sur la langue à faibles ressources, tout en minimisant l'utilisation de la VRAM. Nos expériences montrent de grandes améliorations en termes de perplexité de modélisation linguistique et une augmentation des scores de déclenchement en quelques exemples. Notre travail et le code source publié offrent une approche abordable pour améliorer les LLM pour les langues à faibles ressources en utilisant du matériel grand public. Notre code source est disponible ici : https://github.com/bethelmelesse/unifiedcrawl.
English
Large language models (LLMs) under-perform on low-resource languages due to
limited training data. We present a method to efficiently collect text data for
low-resource languages from the entire Common Crawl corpus. Our approach,
UnifiedCrawl, filters and extracts common crawl using minimal compute
resources, yielding mono-lingual datasets much larger than previously available
sources. We demonstrate that leveraging this data to fine-tuning multilingual
LLMs via efficient adapter methods (QLoRA) significantly boosts performance on
the low-resource language, while minimizing VRAM usage. Our experiments show
large improvements in language modeling perplexity and an increase in few-shot
prompting scores. Our work and released source code provide an affordable
approach to improve LLMs for low-resource languages using consumer hardware.
Our source code is available here at
https://github.com/bethelmelesse/unifiedcrawl.Summary
AI-Generated Summary