Neurale Metamorfose
Neural Metamorphosis
October 10, 2024
Auteurs: Xingyi Yang, Xinchao Wang
cs.AI
Samenvatting
Dit artikel introduceert een nieuw leerperspectief genaamd Neural Metamorphosis (NeuMeta), dat tot doel heeft zelf-vervormbare neurale netwerken te bouwen. In tegenstelling tot het maken van afzonderlijke modellen voor verschillende architecturen of groottes, leert NeuMeta rechtstreeks de continue gewichtsmanifold van neurale netwerken. Eenmaal getraind, kunnen we gewichten monsteren voor netwerken van elke grootte rechtstreeks vanuit de manifold, zelfs voor eerder ongeziene configuraties, zonder opnieuw te trainen. Om dit ambitieuze doel te bereiken, traint NeuMeta neurale impliciete functies als hypernetwerken. Ze accepteren coördinaten binnen de modelruimte als invoer en genereren overeenkomstige gewichtswaarden op de manifold. Met andere woorden, de impliciete functie wordt op zo'n manier geleerd dat de voorspelde gewichten goed presteren over verschillende modelgroottes. Bij het trainen van die modellen merken we op dat de uiteindelijke prestatie nauw verband houdt met de gladheid van de geleerde manifold. In het streven naar het verbeteren van deze gladheid passen we twee strategieën toe. Ten eerste permuteren we gewichtsmatrices om intra-model gladheid te bereiken, door het Shortest Hamiltonian Path-probleem op te lossen. Bovendien voegen we ruis toe aan de invoercoördinaten bij het trainen van de impliciete functie, waardoor modellen met verschillende groottes consistente uitvoer tonen. Als zodanig toont NeuMeta veelbelovende resultaten bij het synthetiseren van parameters voor verschillende netwerkconfiguraties. Onze uitgebreide tests in beeldclassificatie, semantische segmentatie en beeldgeneratie tonen aan dat NeuMeta de prestaties op volledige grootte behoudt, zelfs bij een compressiesnelheid van 75%.
English
This paper introduces a new learning paradigm termed Neural Metamorphosis
(NeuMeta), which aims to build self-morphable neural networks. Contrary to
crafting separate models for different architectures or sizes, NeuMeta directly
learns the continuous weight manifold of neural networks. Once trained, we can
sample weights for any-sized network directly from the manifold, even for
previously unseen configurations, without retraining. To achieve this ambitious
goal, NeuMeta trains neural implicit functions as hypernetworks. They accept
coordinates within the model space as input, and generate corresponding weight
values on the manifold. In other words, the implicit function is learned in a
way, that the predicted weights is well-performed across various models sizes.
In training those models, we notice that, the final performance closely relates
on smoothness of the learned manifold. In pursuit of enhancing this smoothness,
we employ two strategies. First, we permute weight matrices to achieve
intra-model smoothness, by solving the Shortest Hamiltonian Path problem.
Besides, we add a noise on the input coordinates when training the implicit
function, ensuring models with various sizes shows consistent outputs. As such,
NeuMeta shows promising results in synthesizing parameters for various network
configurations. Our extensive tests in image classification, semantic
segmentation, and image generation reveal that NeuMeta sustains full-size
performance even at a 75% compression rate.Summary
AI-Generated Summary