Generazione Parametrica di Reti Neurali Autoregressive Guidate da Istruzioni

Abstract

Imparare a generare parametri di reti neurali condizionati alle descrizioni dei compiti e alle specifiche dell'architettura è fondamentale per migliorare l'adattabilità dei modelli e il trasferimento di conoscenza. I metodi esistenti, in particolare quelli basati su modelli di diffusione, soffrono di una scalabilità limitata per architetture di grandi dimensioni, rigidità nella gestione di profondità di rete variabili e generazione disgiunta dei parametri che compromette la coerenza inter-strato. In questo lavoro, proponiamo IGPG (Instruction Guided Parameter Generation), un framework autoregressivo che unifica la sintesi dei parametri attraverso compiti e architetture diverse. IGPG sfrutta un VQ-VAE e un modello autoregressivo per generare parametri di reti neurali, condizionati alle istruzioni del compito, al dataset e ai dettagli dell'architettura. Generando in modo autoregressivo i token dei pesi della rete neurale, IGPG garantisce la coerenza inter-strato e consente un adattamento efficiente tra modelli e dataset. Operando a livello di token, IGPG cattura efficacemente distribuzioni complesse di parametri aggregate da un ampio spettro di modelli pre-addestrati. Esperimenti estesi su diversi dataset visivi dimostrano che IGPG consolida modelli pre-addestrati diversi in un unico framework generativo flessibile. I parametri sintetizzati raggiungono prestazioni competitive o superiori rispetto ai metodi all'avanguardia, specialmente in termini di scalabilità ed efficienza quando applicati a grandi architetture. Questi risultati sottolineano il potenziale di IGPG come strumento potente per il recupero di pesi pre-addestrati, la selezione di modelli e il fine-tuning rapido specifico per compito.

English

Learning to generate neural network parameters conditioned on task descriptions and architecture specifications is pivotal for advancing model adaptability and transfer learning. Existing methods especially those based on diffusion models suffer from limited scalability to large architectures, rigidity in handling varying network depths, and disjointed parameter generation that undermines inter-layer coherence. In this work, we propose IGPG (Instruction Guided Parameter Generation), an autoregressive framework that unifies parameter synthesis across diverse tasks and architectures. IGPG leverages a VQ-VAE and an autoregressive model to generate neural network parameters, conditioned on task instructions, dataset, and architecture details. By autoregressively generating neural network weights' tokens, IGPG ensures inter-layer coherence and enables efficient adaptation across models and datasets. Operating at the token level, IGPG effectively captures complex parameter distributions aggregated from a broad spectrum of pretrained models. Extensive experiments on multiple vision datasets demonstrate that IGPG consolidates diverse pretrained models into a single, flexible generative framework. The synthesized parameters achieve competitive or superior performance relative to state-of-the-art methods, especially in terms of scalability and efficiency when applied to large architectures. These results underscore ICPG potential as a powerful tool for pretrained weight retrieval, model selection, and rapid task-specific fine-tuning.

Generazione Parametrica di Reti Neurali Autoregressive Guidate da Istruzioni

Instruction-Guided Autoregressive Neural Network Parameter Generation

Abstract

Summary

Support

Support