RDTF: Ressourceneffizientes Dual-Mask-Trainingsframework für die Erzeugung von Mehrbild-Animationsstickern
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation
March 22, 2025
Autoren: Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang
cs.AI
Zusammenfassung
In jüngster Zeit wurden große Fortschritte in der Videogenerierungstechnologie erzielt, was die breite Aufmerksamkeit von Wissenschaftlern auf sich gezogen hat. Um diese Technologie unter ressourcenbeschränkten Bedingungen in nachgelagerte Anwendungen zu integrieren, feintunen Forscher in der Regel vortrainierte Modelle basierend auf parameter-effizienten Methoden wie Adapter oder Lora. Obwohl diese Methoden das Wissen aus dem Quellbereich in den Zielbereich übertragen können, führt die geringere Anzahl von Trainingsparametern zu einer schlechten Anpassungsfähigkeit, und das Wissen aus dem Quellbereich kann dazu führen, dass der Inferenzprozess vom Zielbereich abweicht. In diesem Artikel argumentieren wir, dass unter ressourcenbeschränkten Bedingungen das Training eines kleineren Videogenerierungsmodells von Grund auf mit nur Millionen von Stichproben die parameter-effiziente Feinabstimmung größerer Modelle in nachgelagerten Anwendungen übertreffen kann: Der Kern liegt in der effektiven Nutzung von Daten und einer Curriculumstrategie. Am Beispiel der animierten Sticker-Generierung (ASG) konstruieren wir zunächst ein diskretes Rahmengenerierungsnetzwerk für Sticker mit niedriger Bildrate, um sicherzustellen, dass seine Parameter den Anforderungen des Modelltrainings unter ressourcenbeschränkten Bedingungen entsprechen. Um die Datenunterstützung für von Grund auf trainierte Modelle zu gewährleisten, entwickeln wir eine auf Dual-Masken basierende Datenverwendungsstrategie, die die Verfügbarkeit verbessert und die Vielfalt der begrenzten Daten erweitert. Um die Konvergenz unter Dual-Masken-Bedingungen zu erleichtern, schlagen wir eine schwierigkeitsadaptive Curriculum-Lernmethode vor, die die Probenentropie in statische und adaptive Komponenten zerlegt, um Proben von einfach bis schwierig zu erhalten. Das Experiment zeigt, dass unser ressourceneffizientes Dual-Masken-Trainingsframework quantitativ und qualitativ überlegen ist gegenüber parameter-effizienten Feinabstimmungsmethoden wie I2V-Adapter und SimDA, was die Machbarkeit unserer Methode für nachgelagerte Aufgaben unter ressourcenbeschränkten Bedingungen bestätigt. Der Code wird verfügbar sein.
English
Recently, great progress has been made in video generation technology,
attracting the widespread attention of scholars. To apply this technology to
downstream applications under resource-constrained conditions, researchers
usually fine-tune the pre-trained models based on parameter-efficient tuning
methods such as Adapter or Lora. Although these methods can transfer the
knowledge from the source domain to the target domain, fewer training
parameters lead to poor fitting ability, and the knowledge from the source
domain may lead to the inference process deviating from the target domain. In
this paper, we argue that under constrained resources, training a smaller video
generation model from scratch using only million-level samples can outperform
parameter-efficient tuning on larger models in downstream applications: the
core lies in the effective utilization of data and curriculum strategy. Take
animated sticker generation (ASG) as a case study, we first construct a
discrete frame generation network for stickers with low frame rates, ensuring
that its parameters meet the requirements of model training under constrained
resources. In order to provide data support for models trained from scratch, we
come up with a dual-mask based data utilization strategy, which manages to
improve the availability and expand the diversity of limited data. To
facilitate convergence under dual-mask situation, we propose a
difficulty-adaptive curriculum learning method, which decomposes the sample
entropy into static and adaptive components so as to obtain samples from easy
to difficult. The experiment demonstrates that our resource-efficient dual-mask
training framework is quantitatively and qualitatively superior to
efficient-parameter tuning methods such as I2V-Adapter and SimDA, verifying the
feasibility of our method on downstream tasks under constrained resources. Code
will be available.Summary
AI-Generated Summary