RealisDance-DiT: Eenvoudig maar krachtig uitgangspunt voor beheerbare karakteranimatie in de praktijk
RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild
April 21, 2025
Auteurs: Jingkai Zhou, Yifan Wu, Shikai Li, Min Wei, Chao Fan, Weihua Chen, Wei Jiang, Fan Wang
cs.AI
Samenvatting
Beheersbare karakteranimatie blijft een uitdagend probleem, met name bij het omgaan met zeldzame houdingen, gestileerde karakters, interacties tussen karakters en objecten, complexe belichting en dynamische scènes. Om deze problemen aan te pakken, heeft eerder werk zich vooral gericht op het injecteren van houdings- en uiterlijkbegeleiding via uitgebreide bypass-netwerken, maar vaak blijkt het moeilijk om te generaliseren naar open-wereldscenario's. In dit artikel stellen we een nieuw perspectief voor: zolang het basismodel krachtig genoeg is, kunnen eenvoudige modelaanpassingen met flexibele fine-tuningstrategieën de bovenstaande uitdagingen grotendeels aanpakken, wat een stap zet richting beheersbare karakteranimatie in de praktijk. Specifiek introduceren we RealisDance-DiT, gebouwd op het Wan-2.1 videobasismodel. Onze grondige analyse toont aan dat het veelgebruikte Reference Net-ontwerp suboptimaal is voor grootschalige DiT-modellen. In plaats daarvan laten we zien dat minimale aanpassingen aan de architectuur van het basismodel een verrassend sterke basislijn opleveren. We stellen verder de low-noise warmup en de "grote batches en kleine iteraties"-strategieën voor om de modelconvergentie tijdens het fine-tunen te versnellen, terwijl de voorkennis van het basismodel maximaal behouden blijft. Daarnaast introduceren we een nieuwe testdataset die diverse real-world uitdagingen vastlegt, als aanvulling op bestaande benchmarks zoals de TikTok-dataset en de UBC-fashionvideodataset, om de voorgestelde methode uitgebreid te evalueren. Uitgebreide experimenten tonen aan dat RealisDance-DiT bestaande methoden met een grote marge overtreft.
English
Controllable character animation remains a challenging problem, particularly
in handling rare poses, stylized characters, character-object interactions,
complex illumination, and dynamic scenes. To tackle these issues, prior work
has largely focused on injecting pose and appearance guidance via elaborate
bypass networks, but often struggles to generalize to open-world scenarios. In
this paper, we propose a new perspective that, as long as the foundation model
is powerful enough, straightforward model modifications with flexible
fine-tuning strategies can largely address the above challenges, taking a step
towards controllable character animation in the wild. Specifically, we
introduce RealisDance-DiT, built upon the Wan-2.1 video foundation model. Our
sufficient analysis reveals that the widely adopted Reference Net design is
suboptimal for large-scale DiT models. Instead, we demonstrate that minimal
modifications to the foundation model architecture yield a surprisingly strong
baseline. We further propose the low-noise warmup and "large batches and small
iterations" strategies to accelerate model convergence during fine-tuning while
maximally preserving the priors of the foundation model. In addition, we
introduce a new test dataset that captures diverse real-world challenges,
complementing existing benchmarks such as TikTok dataset and UBC fashion video
dataset, to comprehensively evaluate the proposed method. Extensive experiments
show that RealisDance-DiT outperforms existing methods by a large margin.Summary
AI-Generated Summary