신경 변이
Neural Metamorphosis
October 10, 2024
저자: Xingyi Yang, Xinchao Wang
cs.AI
초록
본 논문은 Neural Metamorphosis(NeuMeta)라는 새로운 학습 패러다임을 소개합니다. 이는 자기 변형 가능한 신경망을 구축하는 것을 목표로 합니다. 다른 아키텍처나 크기에 대해 별도의 모델을 만드는 대신 NeuMeta는 신경망의 연속 가중치 매니폴드를 직접 학습합니다. 학습된 후에는 이 매니폴드에서 어떤 크기의 네트워크에 대한 가중치를 직접 샘플링할 수 있으며, 다시 학습할 필요 없이 이전에 본 적 없는 설정에 대해서도 가능합니다. 이 ehrmfls 목표를 달성하기 위해 NeuMeta는 하이퍼네트워크로서 신경망 암묵적 함수를 학습합니다. 이들은 모델 공간 내 좌표를 입력으로 받아 매니폴드 상에서 해당하는 가중치 값을 생성합니다. 다시 말해, 암묵적 함수는 예측된 가중치가 다양한 모델 크기에 걸쳐 잘 수행되도록 학습됩니다. 이러한 모델을 학습함에 있어서, 학습된 매니폴드의 부드러움이 최종 성능과 밀접한 관련이 있음을 알 수 있습니다. 이 부드러움을 향상시키기 위해 두 가지 전략을 채택합니다. 먼저, Shortest Hamiltonian Path 문제를 해결하여 모델 내부의 부드러움을 달성하기 위해 가중치 행렬을 순열합니다. 또한, 암묵적 함수를 학습할 때 입력 좌표에 노이즈를 추가하여 다양한 크기의 모델이 일관된 출력을 보이도록 합니다. 따라서 NeuMeta는 다양한 네트워크 구성을 위한 매개변수를 합성하는 데 융통성 있는 결과를 보여줍니다. 이미지 분류, 의미 분할 및 이미지 생성에 대한 광범위한 테스트에서 NeuMeta는 75% 압축률에서도 전체 크기의 성능을 유지하는 것으로 나타났습니다.
English
This paper introduces a new learning paradigm termed Neural Metamorphosis
(NeuMeta), which aims to build self-morphable neural networks. Contrary to
crafting separate models for different architectures or sizes, NeuMeta directly
learns the continuous weight manifold of neural networks. Once trained, we can
sample weights for any-sized network directly from the manifold, even for
previously unseen configurations, without retraining. To achieve this ambitious
goal, NeuMeta trains neural implicit functions as hypernetworks. They accept
coordinates within the model space as input, and generate corresponding weight
values on the manifold. In other words, the implicit function is learned in a
way, that the predicted weights is well-performed across various models sizes.
In training those models, we notice that, the final performance closely relates
on smoothness of the learned manifold. In pursuit of enhancing this smoothness,
we employ two strategies. First, we permute weight matrices to achieve
intra-model smoothness, by solving the Shortest Hamiltonian Path problem.
Besides, we add a noise on the input coordinates when training the implicit
function, ensuring models with various sizes shows consistent outputs. As such,
NeuMeta shows promising results in synthesizing parameters for various network
configurations. Our extensive tests in image classification, semantic
segmentation, and image generation reveal that NeuMeta sustains full-size
performance even at a 75% compression rate.Summary
AI-Generated Summary