Niedrig-Rang-Adapter treffen auf neuronale Architektursuche zur Kompression von LLM
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression
January 23, 2025
Autoren: J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain
cs.AI
Zusammenfassung
Die rasante Expansion von Large Language Models (LLMs) hat signifikante Herausforderungen in Bezug auf die benötigten Rechenressourcen für Feinabstimmung und Bereitstellung mit sich gebracht. Die jüngsten Fortschritte bei Low-Rank-Adaptern haben ihre Wirksamkeit bei der parameter-effizienten Feinabstimmung (PEFT) dieser Modelle gezeigt. Dieser Rückblicksartikel diskutiert umfassend innovative Ansätze, die Low-Rank-Repräsentationen mit Techniken des Neural Architecture Search (NAS) synergisieren, insbesondere Weight-Sharing-Super-Netzwerke. Robuste Lösungen zur Komprimierung und Feinabstimmung großer vorab trainierter Modelle werden durch die Integration dieser Methoden entwickelt. Unsere Analyse hebt das Potenzial dieser kombinierten Strategien hervor, um die Nutzung von LLMs zu demokratisieren und sie so in ressourcenbeschränkten Umgebungen zugänglicher zu machen. Die resultierenden Modelle weisen reduzierte Speicherplatzanforderungen und schnellere Inferenzzeiten auf und ebneten den Weg für praktischere und skalierbare Anwendungen von LLMs. Modelle und Code sind verfügbar unter https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
English
The rapid expansion of Large Language Models (LLMs) has posed significant
challenges regarding the computational resources required for fine-tuning and
deployment. Recent advancements in low-rank adapters have demonstrated their
efficacy in parameter-efficient fine-tuning (PEFT) of these models. This
retrospective paper comprehensively discusses innovative approaches that
synergize low-rank representations with Neural Architecture Search (NAS)
techniques, particularly weight-sharing super-networks. Robust solutions for
compressing and fine-tuning large pre-trained models are developed by
integrating these methodologies. Our analysis highlights the potential of these
combined strategies to democratize the use of LLMs, making them more accessible
for deployment in resource-constrained environments. The resulting models
exhibit reduced memory footprints and faster inference times, paving the way
for more practical and scalable applications of LLMs. Models and code are
available at
https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.Summary
AI-Generated Summary