ChatPaper.aiChatPaper

TransPixar: 투명성을 갖춘 텍스트에서 비디오 생성 발전

TransPixar: Advancing Text-to-Video Generation with Transparency

January 6, 2025
저자: Luozhou Wang, Yijun Li, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yingcong Chen
cs.AI

초록

텍스트-비디오 생성 모델은 중요한 발전을 이루어 왔으며, 엔터테인먼트, 광고 및 교육 분야에서 다양한 응용 프로그램을 가능하게 했습니다. 그러나 투명도를 위한 알파 채널을 포함하는 RGBA 비디오를 생성하는 것은 제한된 데이터셋과 기존 모델을 적응시키는 어려움으로 인해 여전히 어려운 과제입니다. 알파 채널은 시각 효과 (VFX)에 중요하며, 연기나 반사물과 같은 투명한 요소가 장면에 매끄럽게 혼합되도록 합니다. 저희는 TransPixar를 소개합니다. 이는 사전 훈련된 비디오 모델을 RGBA 생성으로 확장하는 방법으로, 원래의 RGB 기능을 유지합니다. TransPixar는 확산 트랜스포머 (DiT) 아키텍처를 활용하며, 알파 특정 토큰을 통합하고 LoRA 기반의 세밀한 조정을 사용하여 RGB 및 알파 채널을 높은 일관성으로 동시에 생성합니다. 주의 메커니즘을 최적화함으로써, TransPixar는 원래의 RGB 모델의 강점을 유지하고 훈련 데이터가 제한되더라도 RGB와 알파 채널 간의 강력한 일치를 달성합니다. 저희의 접근 방식은 다양하고 일관된 RGBA 비디오를 효과적으로 생성하여 VFX 및 대화형 콘텐츠 작성의 가능성을 발전시킵니다.
English
Text-to-video generative models have made significant strides, enabling diverse applications in entertainment, advertising, and education. However, generating RGBA video, which includes alpha channels for transparency, remains a challenge due to limited datasets and the difficulty of adapting existing models. Alpha channels are crucial for visual effects (VFX), allowing transparent elements like smoke and reflections to blend seamlessly into scenes. We introduce TransPixar, a method to extend pretrained video models for RGBA generation while retaining the original RGB capabilities. TransPixar leverages a diffusion transformer (DiT) architecture, incorporating alpha-specific tokens and using LoRA-based fine-tuning to jointly generate RGB and alpha channels with high consistency. By optimizing attention mechanisms, TransPixar preserves the strengths of the original RGB model and achieves strong alignment between RGB and alpha channels despite limited training data. Our approach effectively generates diverse and consistent RGBA videos, advancing the possibilities for VFX and interactive content creation.

Summary

AI-Generated Summary

PDF234January 7, 2025