Lage-rangadapters ontmoeten neurale architectuurzoektocht voor LLM-compressie.
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression
January 23, 2025
Auteurs: J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain
cs.AI
Samenvatting
De snelle uitbreiding van Grote Taalmodellen (LLMs) heeft aanzienlijke uitdagingen met zich meegebracht wat betreft de benodigde rekenbronnen voor fine-tuning en implementatie. Recente ontwikkelingen in low-rank adapters hebben hun doeltreffendheid aangetoond bij het parameter-efficiënt fine-tunen (PEFT) van deze modellen. Dit retrospectieve artikel bespreekt uitgebreid innovatieve benaderingen die low-rank representaties combineren met technieken voor Neuraal Architectuur Zoeken (NAS), met name gewicht-delen super-netwerken. Robuuste oplossingen voor het comprimeren en fine-tunen van grote vooraf getrainde modellen worden ontwikkeld door deze methodologieën te integreren. Onze analyse benadrukt het potentieel van deze gecombineerde strategieën om het gebruik van LLMs te democratiseren, waardoor ze toegankelijker worden voor implementatie in omgevingen met beperkte middelen. De resulterende modellen vertonen verminderde geheugenfootprints en snellere inferentietijden, waardoor er ruimte ontstaat voor meer praktische en schaalbare toepassingen van LLMs. Modellen en code zijn beschikbaar op https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
English
The rapid expansion of Large Language Models (LLMs) has posed significant
challenges regarding the computational resources required for fine-tuning and
deployment. Recent advancements in low-rank adapters have demonstrated their
efficacy in parameter-efficient fine-tuning (PEFT) of these models. This
retrospective paper comprehensively discusses innovative approaches that
synergize low-rank representations with Neural Architecture Search (NAS)
techniques, particularly weight-sharing super-networks. Robust solutions for
compressing and fine-tuning large pre-trained models are developed by
integrating these methodologies. Our analysis highlights the potential of these
combined strategies to democratize the use of LLMs, making them more accessible
for deployment in resource-constrained environments. The resulting models
exhibit reduced memory footprints and faster inference times, paving the way
for more practical and scalable applications of LLMs. Models and code are
available at
https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.Summary
AI-Generated Summary