ChatPaper.aiChatPaper

쇼-오 터보: 가속화된 통합된 다중 모달 이해와 생성을 향하여

Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation

February 8, 2025
저자: Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng
cs.AI

초록

통합된 다중 모달 이해 및 생성 모델 구축에 대한 연구 관심이 증가하고 있으며, 그 중에서도 Show-o는 주목할 만한 대표적인 모델로 나타나며, 텍스트에서 이미지로, 그리고 이미지에서 텍스트로의 생성에 대한 큰 약속을 보여줍니다. Show-o의 추론은 이미지 토큰을 점진적으로 제거하고 텍스트 토큰을 자기 회귀적으로 디코딩하는 과정을 포함하므로, 불행히도 양쪽에서 효율성 문제가 발생합니다. 본 논문에서는 이 간극을 메우기 위해 Show-o Turbo를 소개합니다. 먼저, 텍스트 토큰의 병렬 디코딩을 기반으로 Show-o에서 이미지와 텍스트 생성을 위한 통합된 제거 관점을 식별합니다. 그런 다음, 확산 모델의 제거 과정을 단축하는 데에 적합한 일관성 증류(CD) 방법을 다중 모달 제거 궤적에 확장하는 것을 제안합니다. 교육 수렴을 향상시키기 위해 궤적 세분화 전략과 커리큘럼 학습 절차를 도입합니다. 경험적으로, 텍스트에서 이미지 생성 시, Show-o Turbo는 분류기 미사용 가이드(CFG)를 사용하지 않고 4개의 샘플링 단계에서 0.625의 GenEval 점수를 나타내며, 8단계 및 CFG를 사용한 원래의 Show-o보다 우수한 성능을 보여줍니다. 이미지에서 텍스트로의 생성에서는, Show-o Turbo는 성능을 크게 희생하지 않고 1.5배의 가속을 보여줍니다. 코드는 https://github.com/zhijie-group/Show-o-Turbo에서 사용할 수 있습니다.
English
There has been increasing research interest in building unified multimodal understanding and generation models, among which Show-o stands as a notable representative, demonstrating great promise for both text-to-image and image-to-text generation. The inference of Show-o involves progressively denoising image tokens and autoregressively decoding text tokens, and hence, unfortunately, suffers from inefficiency issues from both sides. This paper introduces Show-o Turbo to bridge the gap. We first identify a unified denoising perspective for the generation of images and text in Show-o based on the parallel decoding of text tokens. We then propose to extend consistency distillation (CD), a qualified approach for shortening the denoising process of diffusion models, to the multimodal denoising trajectories of Show-o. We introduce a trajectory segmentation strategy and a curriculum learning procedure to improve the training convergence. Empirically, in text-to-image generation, Show-o Turbo displays a GenEval score of 0.625 at 4 sampling steps without using classifier-free guidance (CFG), outperforming that of the original Show-o with 8 steps and CFG; in image-to-text generation, Show-o Turbo exhibits a 1.5x speedup without significantly sacrificing performance. The code is available at https://github.com/zhijie-group/Show-o-Turbo.

Summary

AI-Generated Summary

PDF202February 11, 2025