Een Verenigd Perspectief op Delta Parameter Bewerking in Post-getrainde Groot-Schalige Modellen
A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models
October 17, 2024
Auteurs: Qiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun
cs.AI
Samenvatting
Post-training is naar voren gekomen als een cruciaal paradigma voor het aanpassen van grootschalige vooraf getrainde modellen aan verschillende taken, waarvan de effecten volledig worden weerspiegeld door delta parameters (d.w.z. het verschil tussen post-getrainde en vooraf getrainde parameters). Hoewel talrijke studies delta parameter eigenschappen hebben onderzocht via bewerkingen zoals pruning, quantization, low-rank benadering, en extrapolatie, ontbreekt een eenduidig kader voor het systematisch onderzoeken van deze kenmerken. In dit artikel stellen we een nieuw perspectief voor op basis van Riemann som benadering van de verliesfunctie om delta parameter bewerkingen te verduidelijken. Onze analyse categoriseert bestaande methoden in drie klassen op basis van hun prestaties na bewerking: competitief, verminderd en verbeterd, waarbij wordt uitgelegd hoe ze worden uitgedrukt door de Riemann som benaderingsterm en hoe ze de modelprestaties veranderen. Uitgebreide experimenten op zowel visuele als taalmodellen, waaronder ViT, LLaMA 3, Qwen 2, en Mistral, bevestigen onze theoretische bevindingen. Bovendien introduceren we uitbreidingen op bestaande technieken zoals DARE en BitDelta, waarbij hun beperkingen in het benutten van de eigenschappen van delta parameters worden belicht en ze worden geherstructureerd tot algemene uitdrukkingen om de toepasbaarheid en effectiviteit van delta parameter bewerking in post-getrainde modellen te verbeteren.
English
Post-training has emerged as a crucial paradigm for adapting large-scale
pre-trained models to various tasks, whose effects are fully reflected by delta
parameters (i.e., the disparity between post-trained and pre-trained
parameters). While numerous studies have explored delta parameter properties
via operations like pruning, quantization, low-rank approximation, and
extrapolation, a unified framework for systematically examining these
characteristics has been lacking. In this paper, we propose a novel perspective
based on Riemann sum approximation of the loss function to elucidate delta
parameter editing operations. Our analysis categorizes existing methods into
three classes based on their post-editing performance: competitive, decreased,
and improved, explaining how they are expressed by the Riemann sum
approximation term and how they alter the model performance. Extensive
experiments on both visual and language models, including ViT, LLaMA 3, Qwen 2,
and Mistral, corroborate our theoretical findings. Furthermore, we introduce
extensions to existing techniques like DARE and BitDelta, highlighting their
limitations in leveraging the properties of delta parameters and reorganizing
them into general expressions to enhance the applicability and effectiveness of
delta parameter editing in post-trained models.Summary
AI-Generated Summary