Niedrig-Rang-Adapter treffen auf neuronale Architektursuche zur Kompression von LLM

Zusammenfassung

Die rasante Expansion von Large Language Models (LLMs) hat signifikante Herausforderungen in Bezug auf die benötigten Rechenressourcen für Feinabstimmung und Bereitstellung mit sich gebracht. Die jüngsten Fortschritte bei Low-Rank-Adaptern haben ihre Wirksamkeit bei der parameter-effizienten Feinabstimmung (PEFT) dieser Modelle gezeigt. Dieser Rückblicksartikel diskutiert umfassend innovative Ansätze, die Low-Rank-Repräsentationen mit Techniken des Neural Architecture Search (NAS) synergisieren, insbesondere Weight-Sharing-Super-Netzwerke. Robuste Lösungen zur Komprimierung und Feinabstimmung großer vorab trainierter Modelle werden durch die Integration dieser Methoden entwickelt. Unsere Analyse hebt das Potenzial dieser kombinierten Strategien hervor, um die Nutzung von LLMs zu demokratisieren und sie so in ressourcenbeschränkten Umgebungen zugänglicher zu machen. Die resultierenden Modelle weisen reduzierte Speicherplatzanforderungen und schnellere Inferenzzeiten auf und ebneten den Weg für praktischere und skalierbare Anwendungen von LLMs. Modelle und Code sind verfügbar unter https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

English

The rapid expansion of Large Language Models (LLMs) has posed significant challenges regarding the computational resources required for fine-tuning and deployment. Recent advancements in low-rank adapters have demonstrated their efficacy in parameter-efficient fine-tuning (PEFT) of these models. This retrospective paper comprehensively discusses innovative approaches that synergize low-rank representations with Neural Architecture Search (NAS) techniques, particularly weight-sharing super-networks. Robust solutions for compressing and fine-tuning large pre-trained models are developed by integrating these methodologies. Our analysis highlights the potential of these combined strategies to democratize the use of LLMs, making them more accessible for deployment in resource-constrained environments. The resulting models exhibit reduced memory footprints and faster inference times, paving the way for more practical and scalable applications of LLMs. Models and code are available at https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

Niedrig-Rang-Adapter treffen auf neuronale Architektursuche zur Kompression von LLM

Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Zusammenfassung

Summary

Support

Support