UniReal: 실제 세계의 동적을 학습하여 범용 이미지 생성 및 편집
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
December 10, 2024
저자: Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao
cs.AI
초록
우리는 다양한 이미지 생성 및 편집 작업을 다루기 위해 설계된 통합 프레임워크 UniReal을 소개합니다. 기존 솔루션들은 작업에 따라 다양하지만, 입력과 출력 사이의 일관성 유지와 시각적 변화를 포착하는 기본 원칙을 공유합니다. 최근 비디오 생성 모델에서 영감을 받아 일관성과 변화를 효과적으로 균형있게 유지하는 방법을 제안합니다. 이미지 수준 작업을 연속성 없는 비디오 생성으로 처리하는 통합 접근 방식을 제안합니다. 구체적으로 입력 및 출력 이미지의 수를 프레임으로 취급하여 이미지 생성, 편집, 사용자 정의, 구성 등과 같은 작업에 대한 원활한 지원을 가능하게 합니다. 이미지 수준 작업을 위해 설계되었지만, 우리는 보편적 감독을 위한 확장 가능한 소스로 비디오를 활용합니다. UniReal은 대규모 비디오로부터 세계의 동적을 학습하며 그림자, 반사, 자세 변화, 물체 상호작용을 처리하는 고급 능력을 보여주며 새로운 응용 프로그램에 대한 신흥 능력도 나타냅니다.
English
We introduce UniReal, a unified framework designed to address various image
generation and editing tasks. Existing solutions often vary by tasks, yet share
fundamental principles: preserving consistency between inputs and outputs while
capturing visual variations. Inspired by recent video generation models that
effectively balance consistency and variation across frames, we propose a
unifying approach that treats image-level tasks as discontinuous video
generation. Specifically, we treat varying numbers of input and output images
as frames, enabling seamless support for tasks such as image generation,
editing, customization, composition, etc. Although designed for image-level
tasks, we leverage videos as a scalable source for universal supervision.
UniReal learns world dynamics from large-scale videos, demonstrating advanced
capability in handling shadows, reflections, pose variation, and object
interaction, while also exhibiting emergent capability for novel applications.Summary
AI-Generated Summary