Generazione Parametrica di Reti Neurali Autoregressive Guidate da Istruzioni
Instruction-Guided Autoregressive Neural Network Parameter Generation
April 2, 2025
Autori: Soro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang
cs.AI
Abstract
Imparare a generare parametri di reti neurali condizionati alle descrizioni dei compiti e alle specifiche dell'architettura è fondamentale per migliorare l'adattabilità dei modelli e il trasferimento di conoscenza. I metodi esistenti, in particolare quelli basati su modelli di diffusione, soffrono di una scalabilità limitata per architetture di grandi dimensioni, rigidità nella gestione di profondità di rete variabili e generazione disgiunta dei parametri che compromette la coerenza inter-strato. In questo lavoro, proponiamo IGPG (Instruction Guided Parameter Generation), un framework autoregressivo che unifica la sintesi dei parametri attraverso compiti e architetture diverse. IGPG sfrutta un VQ-VAE e un modello autoregressivo per generare parametri di reti neurali, condizionati alle istruzioni del compito, al dataset e ai dettagli dell'architettura. Generando in modo autoregressivo i token dei pesi della rete neurale, IGPG garantisce la coerenza inter-strato e consente un adattamento efficiente tra modelli e dataset. Operando a livello di token, IGPG cattura efficacemente distribuzioni complesse di parametri aggregate da un ampio spettro di modelli pre-addestrati. Esperimenti estesi su diversi dataset visivi dimostrano che IGPG consolida modelli pre-addestrati diversi in un unico framework generativo flessibile. I parametri sintetizzati raggiungono prestazioni competitive o superiori rispetto ai metodi all'avanguardia, specialmente in termini di scalabilità ed efficienza quando applicati a grandi architetture. Questi risultati sottolineano il potenziale di IGPG come strumento potente per il recupero di pesi pre-addestrati, la selezione di modelli e il fine-tuning rapido specifico per compito.
English
Learning to generate neural network parameters conditioned on task
descriptions and architecture specifications is pivotal for advancing model
adaptability and transfer learning. Existing methods especially those based on
diffusion models suffer from limited scalability to large architectures,
rigidity in handling varying network depths, and disjointed parameter
generation that undermines inter-layer coherence. In this work, we propose IGPG
(Instruction Guided Parameter Generation), an autoregressive framework that
unifies parameter synthesis across diverse tasks and architectures. IGPG
leverages a VQ-VAE and an autoregressive model to generate neural network
parameters, conditioned on task instructions, dataset, and architecture
details. By autoregressively generating neural network weights' tokens, IGPG
ensures inter-layer coherence and enables efficient adaptation across models
and datasets. Operating at the token level, IGPG effectively captures complex
parameter distributions aggregated from a broad spectrum of pretrained models.
Extensive experiments on multiple vision datasets demonstrate that IGPG
consolidates diverse pretrained models into a single, flexible generative
framework. The synthesized parameters achieve competitive or superior
performance relative to state-of-the-art methods, especially in terms of
scalability and efficiency when applied to large architectures. These results
underscore ICPG potential as a powerful tool for pretrained weight retrieval,
model selection, and rapid task-specific fine-tuning.Summary
AI-Generated Summary