Abbiamo già unificato la generazione e la comprensione delle immagini? Uno studio empirico sulle capacità di generazione di immagini di GPT-4o.
Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability
April 9, 2025
Autori: Ning Li, Jingran Zhang, Justin Cui
cs.AI
Abstract
Il modello multimodale GPT-4o di OpenAI ha dimostrato capacità notevoli nella generazione e modifica di immagini, ma la sua capacità di realizzare una sintesi semantica informata dalla conoscenza del mondo—integrando in modo fluido conoscenza di dominio, ragionamento contestuale e aderenza alle istruzioni—rimane da provare. In questo studio, valutiamo sistematicamente queste capacità lungo tre dimensioni critiche: (1) Aderenza Globale alle Istruzioni, (2) Precisione nella Modifica Fine-Grana e (3) Ragionamento Post-Generazione. Sebbene i benchmark esistenti evidenzino le forti capacità di GPT-4o nella generazione e modifica di immagini, la nostra valutazione rivelle persistenti limitazioni del modello: esso ricorre spesso a interpretazioni letterali delle istruzioni, applica in modo incoerente i vincoli di conoscenza e fatica con compiti di ragionamento condizionale. Questi risultati mettono in discussione le ipotesi prevalenti sulla comprensione unificata e le capacità di generazione di GPT-4o, evidenziando lacune significative nella sua integrazione dinamica della conoscenza. Il nostro studio invoca lo sviluppo di benchmark e strategie di formazione più robusti che vadano oltre l'allineamento superficiale, enfatizzando una generazione multimodale basata sul contesto e sul ragionamento.
English
OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image
generation and editing, yet its ability to achieve world knowledge-informed
semantic synthesis--seamlessly integrating domain knowledge, contextual
reasoning, and instruction adherence--remains unproven. In this study, we
systematically evaluate these capabilities across three critical dimensions:
(1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3)
Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong
capabilities in image generation and editing, our evaluation reveals GPT-4o's
persistent limitations: the model frequently defaults to literal
interpretations of instructions, inconsistently applies knowledge constraints,
and struggles with conditional reasoning tasks. These findings challenge
prevailing assumptions about GPT-4o's unified understanding and generation
capabilities, exposing significant gaps in its dynamic knowledge integration.
Our study calls for the development of more robust benchmarks and training
strategies that go beyond surface-level alignment, emphasizing context-aware
and reasoning-grounded multimodal generation.Summary
AI-Generated Summary