RDTF: Framework di Addestramento a Doppia Maschera Efficiente in Risorse per la Generazione di Adesivi Animati Multi-frame
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation
March 22, 2025
Autori: Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang
cs.AI
Abstract
Recentemente, sono stati compiuti notevoli progressi nella tecnologia di generazione video, attirando l'attenzione diffusa degli studiosi. Per applicare questa tecnologia a compiti downstream in condizioni di risorse limitate, i ricercatori solitamente adattano i modelli pre-addestrati utilizzando metodi di tuning efficienti in termini di parametri, come Adapter o Lora. Sebbene questi metodi possano trasferire la conoscenza dal dominio sorgente al dominio target, un numero ridotto di parametri di addestramento porta a una scarsa capacità di adattamento, e la conoscenza dal dominio sorgente potrebbe far deviare il processo di inferenza dal dominio target. In questo articolo, sosteniamo che, in condizioni di risorse limitate, addestrare un modello di generazione video più piccolo da zero utilizzando solo campioni di livello milione può superare il tuning efficiente in termini di parametri su modelli più grandi nelle applicazioni downstream: il punto cruciale risiede nell'utilizzo efficace dei dati e nella strategia di curriculum. Prendendo come caso di studio la generazione di adesivi animati (ASG), costruiamo prima una rete di generazione di frame discreti per adesivi con bassi frame rate, assicurandoci che i suoi parametri soddisfino i requisiti dell'addestramento del modello in condizioni di risorse limitate. Per fornire supporto dati ai modelli addestrati da zero, proponiamo una strategia di utilizzo dei dati basata su doppia maschera, che migliora la disponibilità e amplia la diversità dei dati limitati. Per facilitare la convergenza in situazioni di doppia maschera, proponiamo un metodo di apprendimento curriculum adattivo alla difficoltà, che scompone l'entropia del campione in componenti statiche e adattive per ottenere campioni dal facile al difficile. L'esperimento dimostra che il nostro framework di addestramento efficiente in termini di risorse con doppia maschera è quantitativamente e qualitativamente superiore ai metodi di tuning efficienti in termini di parametri come I2V-Adapter e SimDA, verificando la fattibilità del nostro metodo nei compiti downstream in condizioni di risorse limitate. Il codice sarà disponibile.
English
Recently, great progress has been made in video generation technology,
attracting the widespread attention of scholars. To apply this technology to
downstream applications under resource-constrained conditions, researchers
usually fine-tune the pre-trained models based on parameter-efficient tuning
methods such as Adapter or Lora. Although these methods can transfer the
knowledge from the source domain to the target domain, fewer training
parameters lead to poor fitting ability, and the knowledge from the source
domain may lead to the inference process deviating from the target domain. In
this paper, we argue that under constrained resources, training a smaller video
generation model from scratch using only million-level samples can outperform
parameter-efficient tuning on larger models in downstream applications: the
core lies in the effective utilization of data and curriculum strategy. Take
animated sticker generation (ASG) as a case study, we first construct a
discrete frame generation network for stickers with low frame rates, ensuring
that its parameters meet the requirements of model training under constrained
resources. In order to provide data support for models trained from scratch, we
come up with a dual-mask based data utilization strategy, which manages to
improve the availability and expand the diversity of limited data. To
facilitate convergence under dual-mask situation, we propose a
difficulty-adaptive curriculum learning method, which decomposes the sample
entropy into static and adaptive components so as to obtain samples from easy
to difficult. The experiment demonstrates that our resource-efficient dual-mask
training framework is quantitatively and qualitatively superior to
efficient-parameter tuning methods such as I2V-Adapter and SimDA, verifying the
feasibility of our method on downstream tasks under constrained resources. Code
will be available.Summary
AI-Generated Summary