Rapporto Tecnico di Seedream 3.0
Seedream 3.0 Technical Report
April 15, 2025
Autori: Yu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI
Abstract
Presentiamo Seedream 3.0, un modello di base ad alte prestazioni per la generazione di immagini bilingue cinese-inglese. Abbiamo sviluppato diversi miglioramenti tecnici per affrontare le sfide esistenti in Seedream 2.0, tra cui l'allineamento con prompt complessi, la generazione di tipografia fine, l'estetica e la fedeltà visiva non ottimali e le limitate risoluzioni delle immagini. Nello specifico, i progressi di Seedream 3.0 derivano da miglioramenti in tutta la pipeline, dalla costruzione dei dati al deployment del modello. A livello di dati, abbiamo raddoppiato il dataset utilizzando un paradigma di addestramento consapevole dei difetti e un framework di campionamento dati collaborativo a doppio asse. Inoltre, abbiamo adottato diverse tecniche efficaci come l'addestramento a risoluzione mista, il RoPE cross-modality, la perdita di allineamento delle rappresentazioni e il campionamento dei passaggi temporali basato sulla risoluzione nella fase di pre-training. Durante la fase di post-training, utilizziamo didascalie estetiche diversificate nel SFT e un modello di ricompensa basato su VLM con scalabilità, ottenendo così output ben allineati alle preferenze umane. Inoltre, Seedream 3.0 introduce un nuovo paradigma di accelerazione. Utilizzando l'aspettativa di rumore coerente e il campionamento dei passaggi temporali basato sull'importanza, otteniamo un aumento di velocità da 4 a 8 volte mantenendo la qualità dell'immagine. Seedream 3.0 dimostra miglioramenti significativi rispetto a Seedream 2.0: potenzia le capacità complessive, in particolare per il rendering del testo in caratteri cinesi complessi, fondamentale per la generazione di tipografia professionale. Inoltre, fornisce un output nativo ad alta risoluzione (fino a 2K), consentendo la generazione di immagini con elevata qualità visiva.
English
We present Seedream 3.0, a high-performance Chinese-English bilingual image
generation foundation model. We develop several technical improvements to
address existing challenges in Seedream 2.0, including alignment with
complicated prompts, fine-grained typography generation, suboptimal visual
aesthetics and fidelity, and limited image resolutions. Specifically, the
advancements of Seedream 3.0 stem from improvements across the entire pipeline,
from data construction to model deployment. At the data stratum, we double the
dataset using a defect-aware training paradigm and a dual-axis collaborative
data-sampling framework. Furthermore, we adopt several effective techniques
such as mixed-resolution training, cross-modality RoPE, representation
alignment loss, and resolution-aware timestep sampling in the pre-training
phase. During the post-training stage, we utilize diversified aesthetic
captions in SFT, and a VLM-based reward model with scaling, thereby achieving
outputs that well align with human preferences. Furthermore, Seedream 3.0
pioneers a novel acceleration paradigm. By employing consistent noise
expectation and importance-aware timestep sampling, we achieve a 4 to 8 times
speedup while maintaining image quality. Seedream 3.0 demonstrates significant
improvements over Seedream 2.0: it enhances overall capabilities, in particular
for text-rendering in complicated Chinese characters which is important to
professional typography generation. In addition, it provides native
high-resolution output (up to 2K), allowing it to generate images with high
visual quality.Summary
AI-Generated Summary