ChatPaper.aiChatPaper

Seedream 2.0: Ein natives chinesisch-englisches bilinguales Bildgenerierungs-Grundmodell

Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

March 10, 2025
Autoren: Lixue Gong, Xiaoxia Hou, Fanshi Li, Liang Li, Xiaochen Lian, Fei Liu, Liyang Liu, Wei Liu, Wei Lu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Linjie Yang, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
cs.AI

Zusammenfassung

Die rasante Weiterentwicklung von Diffusionsmodellen hat bemerkenswerte Fortschritte im Bereich der Bildgenerierung vorangetrieben. Dennoch kämpfen verbreitete Modelle wie Flux, SD3.5 und Midjourney weiterhin mit Problemen wie Modellverzerrungen, begrenzten Textdarstellungsfähigkeiten und unzureichendem Verständnis für kulturelle Nuancen im Chinesischen. Um diese Einschränkungen zu überwinden, präsentieren wir Seedream 2.0, ein natives chinesisch-englisches bilinguales Bildgenerierungs-Grundmodell, das in verschiedenen Dimensionen hervorragt und sowohl chinesische als auch englische Textanweisungen geschickt verarbeitet, wodurch es bilinguale Bildgenerierung und Textdarstellung unterstützt. Wir entwickeln ein leistungsstarkes Datensystem, das die Wissensintegration erleichtert, sowie ein Beschreibungssystem, das Genauigkeit und Reichhaltigkeit bei der Bildbeschreibung ausbalanciert. Insbesondere ist Seedream mit einem selbst entwickelten bilingualen großen Sprachmodell als Textencoder integriert, wodurch es natives Wissen direkt aus umfangreichen Daten lernen kann. Dies ermöglicht es, hochwertige Bilder mit präzisen kulturellen Nuancen und ästhetischen Ausdrücken zu generieren, die entweder auf Chinesisch oder Englisch beschrieben sind. Zudem wird Glyph-Aligned ByT5 für flexible zeichenbasierte Textdarstellung eingesetzt, während ein Scaled ROPE gut auf ungeübte Auflösungen verallgemeinert. Mehrphasige Nachschulungsoptimierungen, einschließlich SFT- und RLHF-Iterationen, verbessern die Gesamtfähigkeit weiter. Durch umfangreiche Experimente zeigen wir, dass Seedream 2.0 in mehreren Aspekten, einschließlich Anweisungsbefolgung, Ästhetik, Textdarstellung und struktureller Korrektheit, Spitzenleistungen erzielt. Darüber hinaus wurde Seedream 2.0 durch mehrere RLHF-Iterationen optimiert, um seine Ausgaben eng an menschliche Präferenzen anzupassen, wie sein herausragender ELO-Score zeigt. Zusätzlich kann es leicht an ein anweisungsbasiertes Bildbearbeitungsmodell wie SeedEdit angepasst werden, das eine starke Bearbeitungsfähigkeit aufweist, die Anweisungsbefolgung und Bildkonsistenz ausbalanciert.
English
Rapid advancement of diffusion models has catalyzed remarkable progress in the field of image generation. However, prevalent models such as Flux, SD3.5 and Midjourney, still grapple with issues like model bias, limited text rendering capabilities, and insufficient understanding of Chinese cultural nuances. To address these limitations, we present Seedream 2.0, a native Chinese-English bilingual image generation foundation model that excels across diverse dimensions, which adeptly manages text prompt in both Chinese and English, supporting bilingual image generation and text rendering. We develop a powerful data system that facilitates knowledge integration, and a caption system that balances the accuracy and richness for image description. Particularly, Seedream is integrated with a self-developed bilingual large language model as a text encoder, allowing it to learn native knowledge directly from massive data. This enable it to generate high-fidelity images with accurate cultural nuances and aesthetic expressions described in either Chinese or English. Beside, Glyph-Aligned ByT5 is applied for flexible character-level text rendering, while a Scaled ROPE generalizes well to untrained resolutions. Multi-phase post-training optimizations, including SFT and RLHF iterations, further improve the overall capability. Through extensive experimentation, we demonstrate that Seedream 2.0 achieves state-of-the-art performance across multiple aspects, including prompt-following, aesthetics, text rendering, and structural correctness. Furthermore, Seedream 2.0 has been optimized through multiple RLHF iterations to closely align its output with human preferences, as revealed by its outstanding ELO score. In addition, it can be readily adapted to an instruction-based image editing model, such as SeedEdit, with strong editing capability that balances instruction-following and image consistency.

Summary

AI-Generated Summary

PDF352March 12, 2025