Seedream 3.0 Technischer Bericht
Seedream 3.0 Technical Report
April 15, 2025
Autoren: Yu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
Zusammenfassung
Wir präsentieren Seedream 3.0, ein leistungsstarkes chinesisch-englisches bilinguales Bildgenerierungs-Grundmodell. Wir haben mehrere technische Verbesserungen entwickelt, um bestehende Herausforderungen von Seedream 2.0 zu adressieren, darunter die Ausrichtung auf komplexe Prompts, die Erzeugung feingliedriger Typografie, suboptimale visuelle Ästhetik und Bildtreue sowie begrenzte Bildauflösungen. Konkret resultieren die Fortschritte von Seedream 3.0 aus Verbesserungen entlang der gesamten Pipeline, von der Datenerstellung bis zur Modellbereitstellung. Auf der Datenebene verdoppeln wir den Datensatz durch ein defektbewusstes Trainingsparadigma und ein dual-axiales, kollaboratives Datenabtastungsframework. Darüber hinaus setzen wir im Pre-Training mehrere effektive Techniken ein, wie Mixed-Resolution-Training, Cross-Modality RoPE, Representation Alignment Loss und Resolution-Aware Timestep Sampling. In der Post-Training-Phase nutzen wir diversifizierte ästhetische Beschreibungen im SFT sowie ein skalierbares VLM-basiertes Belohnungsmodell, wodurch Ausgaben erzielt werden, die gut mit menschlichen Präferenzen übereinstimmen. Zudem führt Seedream 3.0 ein neuartiges Beschleunigungsparadigma ein. Durch den Einsatz von konsistenter Rauscherwartung und importance-aware Timestep Sampling erreichen wir eine 4- bis 8-fache Beschleunigung bei gleichbleibender Bildqualität. Seedream 3.0 zeigt signifikante Verbesserungen gegenüber Seedream 2.0: Es steigert die Gesamtfähigkeiten, insbesondere bei der Textdarstellung komplexer chinesischer Schriftzeichen, was für die professionelle Typografieerzeugung entscheidend ist. Zudem bietet es native Hochauflösungsausgaben (bis zu 2K), wodurch Bilder mit hoher visueller Qualität generiert werden können.
English
We present Seedream 3.0, a high-performance Chinese-English bilingual image
generation foundation model. We develop several technical improvements to
address existing challenges in Seedream 2.0, including alignment with
complicated prompts, fine-grained typography generation, suboptimal visual
aesthetics and fidelity, and limited image resolutions. Specifically, the
advancements of Seedream 3.0 stem from improvements across the entire pipeline,
from data construction to model deployment. At the data stratum, we double the
dataset using a defect-aware training paradigm and a dual-axis collaborative
data-sampling framework. Furthermore, we adopt several effective techniques
such as mixed-resolution training, cross-modality RoPE, representation
alignment loss, and resolution-aware timestep sampling in the pre-training
phase. During the post-training stage, we utilize diversified aesthetic
captions in SFT, and a VLM-based reward model with scaling, thereby achieving
outputs that well align with human preferences. Furthermore, Seedream 3.0
pioneers a novel acceleration paradigm. By employing consistent noise
expectation and importance-aware timestep sampling, we achieve a 4 to 8 times
speedup while maintaining image quality. Seedream 3.0 demonstrates significant
improvements over Seedream 2.0: it enhances overall capabilities, in particular
for text-rendering in complicated Chinese characters which is important to
professional typography generation. In addition, it provides native
high-resolution output (up to 2K), allowing it to generate images with high
visual quality.Summary
AI-Generated Summary