사전 훈련된 대규모 모델에서 델타 매개변수 편집의 통합된 관점
A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models
October 17, 2024
저자: Qiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun
cs.AI
초록
포스트 트레이닝은 대규모 사전 훈련된 모델을 다양한 작업에 적응시키는 데 중요한 패러다임으로 부상했으며, 그 효과는 델타 매개변수(즉, 포스트 트레이닝 및 사전 훈련된 매개변수 간의 차이)에 의해 완전히 반영된다. 가지치기, 양자화, 저랭크 근사화 및 외삽과 같은 작업을 통해 많은 연구가 델타 매개변수의 특성을 탐구해 왔지만, 이러한 특성을 체계적으로 조사하는 통합된 프레임워크는 부족했다. 본 논문에서는 손실 함수의 리만 합 근사를 기반으로 한 새로운 관점을 제안하여 델타 매개변수 편집 작업을 명료하게 설명한다. 우리의 분석은 기존 방법을 후속 편집 성능에 따라 경쟁적, 감소된 및 향상된 세 가지 범주로 분류하며, 이러한 방법이 리만 합 근사 용어로 어떻게 표현되고 모델 성능을 어떻게 변경하는지 설명한다. ViT, LLaMA 3, Qwen 2 및 Mistral을 포함한 시각 및 언어 모델에 대한 포괄적인 실험은 우리의 이론적 발견을 확인한다. 더 나아가, DARE 및 BitDelta와 같은 기존 기술의 확장을 소개하며, 델타 매개변수의 특성을 활용하고 포스트 트레이닝된 모델에서 델타 매개변수 편집의 적용 가능성과 효과를 향상시키기 위해 이를 일반적인 표현으로 재구성하는 한계를 강조한다.
English
Post-training has emerged as a crucial paradigm for adapting large-scale
pre-trained models to various tasks, whose effects are fully reflected by delta
parameters (i.e., the disparity between post-trained and pre-trained
parameters). While numerous studies have explored delta parameter properties
via operations like pruning, quantization, low-rank approximation, and
extrapolation, a unified framework for systematically examining these
characteristics has been lacking. In this paper, we propose a novel perspective
based on Riemann sum approximation of the loss function to elucidate delta
parameter editing operations. Our analysis categorizes existing methods into
three classes based on their post-editing performance: competitive, decreased,
and improved, explaining how they are expressed by the Riemann sum
approximation term and how they alter the model performance. Extensive
experiments on both visual and language models, including ViT, LLaMA 3, Qwen 2,
and Mistral, corroborate our theoretical findings. Furthermore, we introduce
extensions to existing techniques like DARE and BitDelta, highlighting their
limitations in leveraging the properties of delta parameters and reorganizing
them into general expressions to enhance the applicability and effectiveness of
delta parameter editing in post-trained models.Summary
AI-Generated Summary