Lage-rangadapters ontmoeten neurale architectuurzoektocht voor LLM-compressie.

Samenvatting

De snelle uitbreiding van Grote Taalmodellen (LLMs) heeft aanzienlijke uitdagingen met zich meegebracht wat betreft de benodigde rekenbronnen voor fine-tuning en implementatie. Recente ontwikkelingen in low-rank adapters hebben hun doeltreffendheid aangetoond bij het parameter-efficiënt fine-tunen (PEFT) van deze modellen. Dit retrospectieve artikel bespreekt uitgebreid innovatieve benaderingen die low-rank representaties combineren met technieken voor Neuraal Architectuur Zoeken (NAS), met name gewicht-delen super-netwerken. Robuuste oplossingen voor het comprimeren en fine-tunen van grote vooraf getrainde modellen worden ontwikkeld door deze methodologieën te integreren. Onze analyse benadrukt het potentieel van deze gecombineerde strategieën om het gebruik van LLMs te democratiseren, waardoor ze toegankelijker worden voor implementatie in omgevingen met beperkte middelen. De resulterende modellen vertonen verminderde geheugenfootprints en snellere inferentietijden, waardoor er ruimte ontstaat voor meer praktische en schaalbare toepassingen van LLMs. Modellen en code zijn beschikbaar op https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

English

The rapid expansion of Large Language Models (LLMs) has posed significant challenges regarding the computational resources required for fine-tuning and deployment. Recent advancements in low-rank adapters have demonstrated their efficacy in parameter-efficient fine-tuning (PEFT) of these models. This retrospective paper comprehensively discusses innovative approaches that synergize low-rank representations with Neural Architecture Search (NAS) techniques, particularly weight-sharing super-networks. Robust solutions for compressing and fine-tuning large pre-trained models are developed by integrating these methodologies. Our analysis highlights the potential of these combined strategies to democratize the use of LLMs, making them more accessible for deployment in resource-constrained environments. The resulting models exhibit reduced memory footprints and faster inference times, paving the way for more practical and scalable applications of LLMs. Models and code are available at https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

Lage-rangadapters ontmoeten neurale architectuurzoektocht voor LLM-compressie.

Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Samenvatting

Summary

Support