ChatPaper.aiChatPaper

장치 내 Sora: 이동 장치용 확산 기반 텍스트에서 비디오로의 생성 가능하게 함

On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices

February 5, 2025
저자: Bosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee
cs.AI

초록

저희는 On-device Sora를 소개합니다. 이는 스마트폰급 장치에서 효율적으로 작동하는 확산 기반 온-디바이스 텍스트-비디오 생성을 위한 최초의 선도적인 솔루션입니다. Open-Sora를 기반으로 구축된 On-device Sora는 확산 기반 텍스트-비디오 생성의 도전을 해결하기 위해 세 가지의 새로운 기술을 적용합니다. 첫째, 선형 비례적 점프 (LPL)는 효율적인 점프 기반 접근을 통해 비디오 확산에서 필요한 과도한 노이즈 제거 단계를 줄입니다. 둘째, 시간 차원 토큰 병합 (TDTM)은 시간 차원을 따라 연속적인 토큰을 병합함으로써 어텐션 레이어에서의 고부하 토큰 처리 계산을 최소화합니다. 셋째, 동적 로딩과 함께 동시 추론 (CI-DL)은 대규모 모델을 작은 블록으로 동적으로 분할하고 메모리에 로드하여 제한된 장치 메모리의 도전을 효과적으로 해결합니다. 저희는 iPhone 15 Pro에서 On-device Sora를 구현하였으며 실험적 평가 결과, 이 장치에서 Open-Sora가 고성능 GPU에서 실행되는 것과 유사한 수준의 고품질 비디오를 생성할 수 있는 것을 보여줍니다. 이러한 결과는 On-device Sora가 자원 제한적인 모바일 장치에서 효율적이고 고품질의 비디오 생성을 가능케 하며, 접근성을 확대시키고 사용자 개인정보 보호를 보장하며, 클라우드 인프라에 대한 의존을 줄이고 관련 비용을 낮출 수 있음을 보여줍니다. 저희는 제안된 On-device Sora를 최첨단 생성 기술을 대중화하는 중요한 첫걸음으로 보며, 상품용 모바일 및 임베디드 장치에서 비디오 생성 기능을 가능케 하는 것을 기대합니다. 코드 구현은 GitHub 저장소에서 공개되어 있습니다: https://github.com/eai-lab/On-device-Sora.
English
We present On-device Sora, a first pioneering solution for diffusion-based on-device text-to-video generation that operates efficiently on smartphone-grade devices. Building on Open-Sora, On-device Sora applies three novel techniques to address the challenges of diffusion-based text-to-video generation on computation- and memory-limited mobile devices. First, Linear Proportional Leap (LPL) reduces the excessive denoising steps required in video diffusion through an efficient leap-based approach. Second, Temporal Dimension Token Merging (TDTM) minimizes intensive token-processing computation in attention layers by merging consecutive tokens along the temporal dimension. Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions large models into smaller blocks and loads them into memory for concurrent model inference, effectively addressing the challenges of limited device memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental evaluations demonstrate that it is capable of generating high-quality videos on the device, comparable to those produced by Open-Sora running on high-end GPUs. These results show that On-device Sora enables efficient and high-quality video generation on resource-constrained mobile devices, expanding accessibility, ensuring user privacy, reducing dependence on cloud infrastructure, and lowering associated costs. We envision the proposed On-device Sora as a significant first step toward democratizing state-of-the-art generative technologies, enabling video generation capabilities on commodity mobile and embedded devices. The code implementation is publicly available at an GitHub repository: https://github.com/eai-lab/On-device-Sora.

Summary

AI-Generated Summary

PDF113February 10, 2025