ChatPaper.aiChatPaper

GoT: Entfesselung der Schlussfolgerungsfähigkeit multimodaler großer Sprachmodelle für visuelle Generierung und Bearbeitung

GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

March 13, 2025
Autoren: Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li
cs.AI

Zusammenfassung

Aktuelle Methoden zur Bildgenerierung und -bearbeitung verarbeiten Textanweisungen in erster Linie als direkte Eingaben, ohne visuelle Komposition und explizite Operationen zu berücksichtigen. Wir präsentieren Generation Chain-of-Thought (GoT), ein neuartiges Paradigma, das die Generierung und Bearbeitung durch einen expliziten Sprachdenkprozess ermöglicht, bevor Bilder ausgegeben werden. Dieser Ansatz transformiert die konventionelle Text-zu-Bild-Generierung und -Bearbeitung in ein durch Denkprozesse geleitetes Framework, das semantische Beziehungen und räumliche Anordnungen analysiert. Wir definieren die Formulierung von GoT und erstellen groß angelegte GoT-Datensätze mit über 9 Millionen Proben, die detaillierte Denkketten zur Erfassung semantisch-räumlicher Beziehungen enthalten. Um die Vorteile von GoT zu nutzen, implementieren wir ein einheitliches Framework, das Qwen2.5-VL zur Generierung von Denkketten mit einem end-to-end Diffusionsmodell kombiniert, das durch unser neuartiges Semantic-Spatial Guidance Module erweitert wird. Experimente zeigen, dass unser GoT-Framework sowohl bei Generierungs- als auch bei Bearbeitungsaufgaben hervorragende Leistungen erzielt und signifikante Verbesserungen gegenüber den Baselines aufweist. Darüber hinaus ermöglicht unser Ansatz die interaktive visuelle Generierung, bei der Benutzer explizit Denkschritte anpassen können, um präzise Bildanpassungen vorzunehmen. GoT bahnt eine neue Richtung für den denkprozessgesteuerten visuellen Generierungs- und Bearbeitungsprozess ein und erzeugt Bilder, die besser mit der menschlichen Absicht übereinstimmen. Um zukünftige Forschung zu fördern, stellen wir unsere Datensätze, Code und vortrainierte Modelle öffentlich unter https://github.com/rongyaofang/GoT zur Verfügung.
English
Current image generation and editing methods primarily process textual prompts as direct inputs without reasoning about visual composition and explicit operations. We present Generation Chain-of-Thought (GoT), a novel paradigm that enables generation and editing through an explicit language reasoning process before outputting images. This approach transforms conventional text-to-image generation and editing into a reasoning-guided framework that analyzes semantic relationships and spatial arrangements. We define the formulation of GoT and construct large-scale GoT datasets containing over 9M samples with detailed reasoning chains capturing semantic-spatial relationships. To leverage the advantages of GoT, we implement a unified framework that integrates Qwen2.5-VL for reasoning chain generation with an end-to-end diffusion model enhanced by our novel Semantic-Spatial Guidance Module. Experiments show our GoT framework achieves excellent performance on both generation and editing tasks, with significant improvements over baselines. Additionally, our approach enables interactive visual generation, allowing users to explicitly modify reasoning steps for precise image adjustments. GoT pioneers a new direction for reasoning-driven visual generation and editing, producing images that better align with human intent. To facilitate future research, we make our datasets, code, and pretrained models publicly available at https://github.com/rongyaofang/GoT.

Summary

AI-Generated Summary

PDF482March 14, 2025