RDTF: Framework di Addestramento a Doppia Maschera Efficiente in Risorse per la Generazione di Adesivi Animati Multi-frame

Abstract

Recentemente, sono stati compiuti notevoli progressi nella tecnologia di generazione video, attirando l'attenzione diffusa degli studiosi. Per applicare questa tecnologia a compiti downstream in condizioni di risorse limitate, i ricercatori solitamente adattano i modelli pre-addestrati utilizzando metodi di tuning efficienti in termini di parametri, come Adapter o Lora. Sebbene questi metodi possano trasferire la conoscenza dal dominio sorgente al dominio target, un numero ridotto di parametri di addestramento porta a una scarsa capacità di adattamento, e la conoscenza dal dominio sorgente potrebbe far deviare il processo di inferenza dal dominio target. In questo articolo, sosteniamo che, in condizioni di risorse limitate, addestrare un modello di generazione video più piccolo da zero utilizzando solo campioni di livello milione può superare il tuning efficiente in termini di parametri su modelli più grandi nelle applicazioni downstream: il punto cruciale risiede nell'utilizzo efficace dei dati e nella strategia di curriculum. Prendendo come caso di studio la generazione di adesivi animati (ASG), costruiamo prima una rete di generazione di frame discreti per adesivi con bassi frame rate, assicurandoci che i suoi parametri soddisfino i requisiti dell'addestramento del modello in condizioni di risorse limitate. Per fornire supporto dati ai modelli addestrati da zero, proponiamo una strategia di utilizzo dei dati basata su doppia maschera, che migliora la disponibilità e amplia la diversità dei dati limitati. Per facilitare la convergenza in situazioni di doppia maschera, proponiamo un metodo di apprendimento curriculum adattivo alla difficoltà, che scompone l'entropia del campione in componenti statiche e adattive per ottenere campioni dal facile al difficile. L'esperimento dimostra che il nostro framework di addestramento efficiente in termini di risorse con doppia maschera è quantitativamente e qualitativamente superiore ai metodi di tuning efficienti in termini di parametri come I2V-Adapter e SimDA, verificando la fattibilità del nostro metodo nei compiti downstream in condizioni di risorse limitate. Il codice sarà disponibile.

English

Recently, great progress has been made in video generation technology, attracting the widespread attention of scholars. To apply this technology to downstream applications under resource-constrained conditions, researchers usually fine-tune the pre-trained models based on parameter-efficient tuning methods such as Adapter or Lora. Although these methods can transfer the knowledge from the source domain to the target domain, fewer training parameters lead to poor fitting ability, and the knowledge from the source domain may lead to the inference process deviating from the target domain. In this paper, we argue that under constrained resources, training a smaller video generation model from scratch using only million-level samples can outperform parameter-efficient tuning on larger models in downstream applications: the core lies in the effective utilization of data and curriculum strategy. Take animated sticker generation (ASG) as a case study, we first construct a discrete frame generation network for stickers with low frame rates, ensuring that its parameters meet the requirements of model training under constrained resources. In order to provide data support for models trained from scratch, we come up with a dual-mask based data utilization strategy, which manages to improve the availability and expand the diversity of limited data. To facilitate convergence under dual-mask situation, we propose a difficulty-adaptive curriculum learning method, which decomposes the sample entropy into static and adaptive components so as to obtain samples from easy to difficult. The experiment demonstrates that our resource-efficient dual-mask training framework is quantitatively and qualitatively superior to efficient-parameter tuning methods such as I2V-Adapter and SimDA, verifying the feasibility of our method on downstream tasks under constrained resources. Code will be available.

RDTF: Framework di Addestramento a Doppia Maschera Efficiente in Risorse per la Generazione di Adesivi Animati Multi-frame

RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation

Abstract

Summary

Support

Support