ChatPaper.aiChatPaper

Seedream 3.0 Technischer Bericht

Seedream 3.0 Technical Report

April 15, 2025
Autoren: Yu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI

Zusammenfassung

Wir präsentieren Seedream 3.0, ein leistungsstarkes chinesisch-englisches bilinguales Bildgenerierungs-Grundmodell. Wir haben mehrere technische Verbesserungen entwickelt, um bestehende Herausforderungen von Seedream 2.0 zu adressieren, darunter die Ausrichtung auf komplexe Prompts, die Erzeugung feingliedriger Typografie, suboptimale visuelle Ästhetik und Bildtreue sowie begrenzte Bildauflösungen. Konkret resultieren die Fortschritte von Seedream 3.0 aus Verbesserungen entlang der gesamten Pipeline, von der Datenerstellung bis zur Modellbereitstellung. Auf der Datenebene verdoppeln wir den Datensatz durch ein defektbewusstes Trainingsparadigma und ein dual-axiales, kollaboratives Datenabtastungsframework. Darüber hinaus setzen wir im Pre-Training mehrere effektive Techniken ein, wie Mixed-Resolution-Training, Cross-Modality RoPE, Representation Alignment Loss und Resolution-Aware Timestep Sampling. In der Post-Training-Phase nutzen wir diversifizierte ästhetische Beschreibungen im SFT sowie ein skalierbares VLM-basiertes Belohnungsmodell, wodurch Ausgaben erzielt werden, die gut mit menschlichen Präferenzen übereinstimmen. Zudem führt Seedream 3.0 ein neuartiges Beschleunigungsparadigma ein. Durch den Einsatz von konsistenter Rauscherwartung und importance-aware Timestep Sampling erreichen wir eine 4- bis 8-fache Beschleunigung bei gleichbleibender Bildqualität. Seedream 3.0 zeigt signifikante Verbesserungen gegenüber Seedream 2.0: Es steigert die Gesamtfähigkeiten, insbesondere bei der Textdarstellung komplexer chinesischer Schriftzeichen, was für die professionelle Typografieerzeugung entscheidend ist. Zudem bietet es native Hochauflösungsausgaben (bis zu 2K), wodurch Bilder mit hoher visueller Qualität generiert werden können.
English
We present Seedream 3.0, a high-performance Chinese-English bilingual image generation foundation model. We develop several technical improvements to address existing challenges in Seedream 2.0, including alignment with complicated prompts, fine-grained typography generation, suboptimal visual aesthetics and fidelity, and limited image resolutions. Specifically, the advancements of Seedream 3.0 stem from improvements across the entire pipeline, from data construction to model deployment. At the data stratum, we double the dataset using a defect-aware training paradigm and a dual-axis collaborative data-sampling framework. Furthermore, we adopt several effective techniques such as mixed-resolution training, cross-modality RoPE, representation alignment loss, and resolution-aware timestep sampling in the pre-training phase. During the post-training stage, we utilize diversified aesthetic captions in SFT, and a VLM-based reward model with scaling, thereby achieving outputs that well align with human preferences. Furthermore, Seedream 3.0 pioneers a novel acceleration paradigm. By employing consistent noise expectation and importance-aware timestep sampling, we achieve a 4 to 8 times speedup while maintaining image quality. Seedream 3.0 demonstrates significant improvements over Seedream 2.0: it enhances overall capabilities, in particular for text-rendering in complicated Chinese characters which is important to professional typography generation. In addition, it provides native high-resolution output (up to 2K), allowing it to generate images with high visual quality.

Summary

AI-Generated Summary

PDF485April 16, 2025