UniReal: Generazione e Modifica Universale di Immagini tramite Apprendimento delle Dinamiche del Mondo Reale
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
December 10, 2024
Autori: Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao
cs.AI
Abstract
Introduciamo UniReal, un framework unificato progettato per affrontare varie attività di generazione e modifica di immagini. Le soluzioni esistenti spesso variano a seconda delle attività, ma condividono principi fondamentali: preservare la coerenza tra input e output catturando variazioni visive. Ispirandoci ai recenti modelli di generazione video che bilanciano efficacemente coerenza e variazione tra frame, proponiamo un approccio unificante che tratta le attività a livello di immagine come generazione discontinua di video. In particolare, trattiamo numeri variabili di immagini di input e output come frame, consentendo un supporto fluido per attività come generazione di immagini, modifica, personalizzazione, composizione, ecc. Anche se progettato per attività a livello di immagine, sfruttiamo i video come fonte scalabile per la supervisione universale. UniReal apprende dinamiche del mondo da video su larga scala, dimostrando capacità avanzate nel gestire ombre, riflessi, variazioni di posa e interazioni degli oggetti, mostrando anche capacità emergenti per nuove applicazioni.
English
We introduce UniReal, a unified framework designed to address various image
generation and editing tasks. Existing solutions often vary by tasks, yet share
fundamental principles: preserving consistency between inputs and outputs while
capturing visual variations. Inspired by recent video generation models that
effectively balance consistency and variation across frames, we propose a
unifying approach that treats image-level tasks as discontinuous video
generation. Specifically, we treat varying numbers of input and output images
as frames, enabling seamless support for tasks such as image generation,
editing, customization, composition, etc. Although designed for image-level
tasks, we leverage videos as a scalable source for universal supervision.
UniReal learns world dynamics from large-scale videos, demonstrating advanced
capability in handling shadows, reflections, pose variation, and object
interaction, while also exhibiting emergent capability for novel applications.Summary
AI-Generated Summary