Control LLM: Gecontroleerde Evolutie voor Intelligentiebehoud in LLM

Control LLM: Controlled Evolution for Intelligence Retention in LLM

January 19, 2025
Auteurs: Haichao Wei, Yunxiang Ren, Zhoutong Fu, Aman Lunia, Yi-Lin Chen, Alice Leung, Ya Xu
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) vereisen aanzienlijke rekenbronnen, waardoor het essentieel is om hun mogelijkheden te verbeteren zonder opnieuw te hoeven trainen vanaf nul. Een belangrijke uitdaging in dit domein is catastrofaal vergeten (CF), wat de prestaties tijdens Continue Pre-training (CPT) en Continue Begeleide Fijnafstemming (CSFT) belemmert. Wij stellen Control LLM voor, een nieuw benadering die gebruikmaakt van parallelle vooraf getrainde en uitgebreide transformerblokken, waarbij hun verborgen toestanden worden uitgelijnd door interpolatiestrategieën. Deze methode behoudt effectief de prestaties op bestaande taken terwijl nieuwe kennis naadloos wordt geïntegreerd. Uitgebreide experimenten tonen de effectiviteit van Control LLM aan in zowel CPT als CSFT. Op Llama3.1-8B-Instruct behaalt het aanzienlijke verbeteringen in wiskundig redeneren (+14,4% op Math-Hard) en codeerprestaties (+10% op MBPP-PLUS). Op Llama3.1-8B verbetert het de meertalige mogelijkheden (+10,6% op C-Eval, +6,8% op CMMLU, en +30,2% op CMMLU-0shot-CoT). Het overtreft bestaande methoden en bereikt SOTA onder open-source modellen afgestemd vanuit hetzelfde basismodel, met aanzienlijk minder gegevens en berekeningen. Belangrijk is dat deze winsten worden gerealiseerd terwijl sterke oorspronkelijke mogelijkheden behouden blijven, met minimale degradatie (<4,3% op MMLU) in vergelijking met >35% in open-source wiskunde- en codeermodellen. Deze benadering is met succes toegepast in LinkedIn's GenAI-aangedreven producten voor werkzoekenden en advertenties. Om verder onderzoek te ondersteunen, stellen we de trainings- en evaluatiecode beschikbaar (https://github.com/linkedin/ControlLLM) samen met modellen getraind op openbare datasets (https://huggingface.co/ControlLLM) aan de gemeenschap.
English
Large Language Models (LLMs) demand significant computational resources, making it essential to enhance their capabilities without retraining from scratch. A key challenge in this domain is catastrophic forgetting (CF), which hampers performance during Continuous Pre-training (CPT) and Continuous Supervised Fine-Tuning (CSFT). We propose Control LLM, a novel approach that leverages parallel pre-trained and expanded transformer blocks, aligning their hidden-states through interpolation strategies This method effectively preserves performance on existing tasks while seamlessly integrating new knowledge. Extensive experiments demonstrate the effectiveness of Control LLM in both CPT and CSFT. On Llama3.1-8B-Instruct, it achieves significant improvements in mathematical reasoning (+14.4% on Math-Hard) and coding performance (+10% on MBPP-PLUS). On Llama3.1-8B, it enhances multilingual capabilities (+10.6% on C-Eval, +6.8% on CMMLU, and +30.2% on CMMLU-0shot-CoT). It surpasses existing methods and achieves SOTA among open-source models tuned from the same base model, using substantially less data and compute. Crucially, these gains are realized while preserving strong original capabilities, with minimal degradation (<4.3% on MMLU) compared to >35% in open-source Math and Coding models. This approach has been successfully deployed in LinkedIn's GenAI-powered job seeker and Ads unit products. To support further research, we release the training and evaluation code (https://github.com/linkedin/ControlLLM) along with models trained on public datasets ( https://huggingface.co/ControlLLM) to the community.

Summary

AI-Generated Summary

PDF52January 24, 2025