TransPixar: 透過性を活用したテキストから動画生成の前進
TransPixar: Advancing Text-to-Video Generation with Transparency
January 6, 2025
著者: Luozhou Wang, Yijun Li, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yingcong Chen
cs.AI
要旨
テキストからビデオへの生成モデルは、エンターテイメント、広告、教育など幅広い分野での応用を可能にするために、大きな進展を遂げています。ただし、透過性のためのアルファチャンネルを含むRGBAビデオの生成は、限られたデータセットと既存のモデルの適応の難しさにより、依然として課題となっています。アルファチャンネルはビジュアルエフェクト(VFX)において重要であり、煙や反射などの透明な要素をシーンにシームレスに溶け込ませることが可能となります。本研究では、TransPixarという手法を導入し、事前学習されたビデオモデルをRGBA生成に拡張すると同時に、元のRGB機能を維持します。TransPixarは、拡散トランスフォーマー(DiT)アーキテクチャを活用し、アルファ専用のトークンを組み込み、LoRAベースのファインチューニングを使用して、RGBとアルファチャンネルを高い一貫性で共同生成します。注目メカニズムを最適化することで、TransPixarは元のRGBモデルの強みを維持し、限られたトレーニングデータにもかかわらずRGBとアルファチャンネルの強力な整合性を実現します。このアプローチにより、多様で一貫性のあるRGBAビデオを効果的に生成し、VFXやインタラクティブコンテンツの創造の可能性を前進させます。
English
Text-to-video generative models have made significant strides, enabling
diverse applications in entertainment, advertising, and education. However,
generating RGBA video, which includes alpha channels for transparency, remains
a challenge due to limited datasets and the difficulty of adapting existing
models. Alpha channels are crucial for visual effects (VFX), allowing
transparent elements like smoke and reflections to blend seamlessly into
scenes. We introduce TransPixar, a method to extend pretrained video models for
RGBA generation while retaining the original RGB capabilities. TransPixar
leverages a diffusion transformer (DiT) architecture, incorporating
alpha-specific tokens and using LoRA-based fine-tuning to jointly generate RGB
and alpha channels with high consistency. By optimizing attention mechanisms,
TransPixar preserves the strengths of the original RGB model and achieves
strong alignment between RGB and alpha channels despite limited training data.
Our approach effectively generates diverse and consistent RGBA videos,
advancing the possibilities for VFX and interactive content creation.Summary
AI-Generated Summary