UniReal: Generazione e Modifica Universale di Immagini tramite Apprendimento delle Dinamiche del Mondo Reale

Abstract

Introduciamo UniReal, un framework unificato progettato per affrontare varie attività di generazione e modifica di immagini. Le soluzioni esistenti spesso variano a seconda delle attività, ma condividono principi fondamentali: preservare la coerenza tra input e output catturando variazioni visive. Ispirandoci ai recenti modelli di generazione video che bilanciano efficacemente coerenza e variazione tra frame, proponiamo un approccio unificante che tratta le attività a livello di immagine come generazione discontinua di video. In particolare, trattiamo numeri variabili di immagini di input e output come frame, consentendo un supporto fluido per attività come generazione di immagini, modifica, personalizzazione, composizione, ecc. Anche se progettato per attività a livello di immagine, sfruttiamo i video come fonte scalabile per la supervisione universale. UniReal apprende dinamiche del mondo da video su larga scala, dimostrando capacità avanzate nel gestire ombre, riflessi, variazioni di posa e interazioni degli oggetti, mostrando anche capacità emergenti per nuove applicazioni.

English

We introduce UniReal, a unified framework designed to address various image generation and editing tasks. Existing solutions often vary by tasks, yet share fundamental principles: preserving consistency between inputs and outputs while capturing visual variations. Inspired by recent video generation models that effectively balance consistency and variation across frames, we propose a unifying approach that treats image-level tasks as discontinuous video generation. Specifically, we treat varying numbers of input and output images as frames, enabling seamless support for tasks such as image generation, editing, customization, composition, etc. Although designed for image-level tasks, we leverage videos as a scalable source for universal supervision. UniReal learns world dynamics from large-scale videos, demonstrating advanced capability in handling shadows, reflections, pose variation, and object interaction, while also exhibiting emergent capability for novel applications.

UniReal: Generazione e Modifica Universale di Immagini tramite Apprendimento delle Dinamiche del Mondo Reale

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

Abstract

Summary

Support