ChatPaper.aiChatPaper

고쿠: 플로우 기반 비디오 생성 기반 모델

Goku: Flow Based Video Generative Foundation Models

February 7, 2025
저자: Shoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu
cs.AI

초록

본 논문은 최첨단 성능을 달성하기 위해 교정된 플로 트랜스포머를 활용한 합성 이미지 및 비디오 생성 모델 패밀리인 Goku를 소개합니다. 우리는 고품질 시각적 생성을 가능케 하는 기본 요소들을 구체적으로 설명하며, 데이터 큐레이션 파이프라인, 모델 아키텍처 설계, 플로 공식화, 그리고 효율적이고 견고한 대규모 훈련을 위한 고급 인프라를 다룹니다. Goku 모델은 질적 및 양적 평가에서 우수한 성능을 보여주며, 주요 작업 영역에서 새로운 기준을 세우고 있습니다. 구체적으로, Goku는 텍스트-이미지 생성에 대해 GenEval에서 0.76, DPG-Bench에서 83.65, 그리고 텍스트-비디오 작업에 대해 VBench에서 84.85을 달성했습니다. 본 연구가 합성 이미지 및 비디오 생성 모델 개발에 있어 연구 커뮤니티에 유용한 통찰과 실용적 진전을 제공한다고 믿습니다.
English
This paper introduces Goku, a state-of-the-art family of joint image-and-video generation models leveraging rectified flow Transformers to achieve industry-leading performance. We detail the foundational elements enabling high-quality visual generation, including the data curation pipeline, model architecture design, flow formulation, and advanced infrastructure for efficient and robust large-scale training. The Goku models demonstrate superior performance in both qualitative and quantitative evaluations, setting new benchmarks across major tasks. Specifically, Goku achieves 0.76 on GenEval and 83.65 on DPG-Bench for text-to-image generation, and 84.85 on VBench for text-to-video tasks. We believe that this work provides valuable insights and practical advancements for the research community in developing joint image-and-video generation models.

Summary

AI-Generated Summary

PDF8812February 10, 2025