ChatPaper.aiChatPaper

OmniCreator: 유니버설 편집을 통한 자기 지도형 통합 생성

OmniCreator: Self-Supervised Unified Generation with Universal Editing

December 3, 2024
저자: Haodong Chen, Lan Wang, Harry Yang, Ser-Nam Lim
cs.AI

초록

저희는 OmniCreator를 소개합니다. 이는 텍스트 프롬프트에 의해 통합된(이미지+비디오) 생성 및 편집을 한 곳에서 수행할 수 있는 혁신적인 프레임워크입니다. OmniCreator는 자가 감독 방식으로 생성 및 범용 편집 기능을 습득하며, 원본 텍스트-비디오 쌍을 조건으로 삼으면서 같은 비디오를 잡음 제거 대상으로 활용하여 비디오와 텍스트 간 의미적 대응을 학습합니다. 추론 중에 텍스트 프롬프트와 비디오가 제시되면, OmniCreator는 양쪽에 충실한 대상을 생성할 수 있어 기존의 일부 편집 유형에 주로 초점을 맞추거나 추가적인 제어(예: 구조적 조건, 주의 기능 또는 DDIM 반전)에 의존하는 기존 편집 작업과는 달리 제약이 없는 범용 편집 효과를 달성합니다. 반면에 텍스트 프롬프트만 제시되면, OmniCreator는 생성적이 되어 학습한 의미적 대응으로 고품질 비디오를 생성합니다. 더 중요한 것은 동일한 능력이 이미지에도 그대로 적용되어 OmniCreator를 진정한 통합 프레임워크로 만든다는 점입니다. 또한, 기존의 생성적 비디오 편집 벤치마크의 부재로 인해, 우리는 종합적으로 생성적 비디오 편집 모델의 성능을 평가하기 위해 설계된 OmniBench-99 데이터셋을 소개합니다. 광범위한 실험 결과, OmniCreator가 모든 다른 모델들보다 상당한 우월성을 나타내는 것을 입증하였습니다.
English
We introduce OmniCreator, a novel framework that can conduct text-prompted unified (image+video) generation as well as editing all in one place. OmniCreator acquires generative and universal editing capabilities in a self-supervised manner, taking original text-video pairs as conditions while utilizing the same video as a denoising target to learn the semantic correspondence between video and text. During inference, when presented with a text prompt and a video, OmniCreator is capable of generating a target that is faithful to both, achieving a universal editing effect that is unconstrained as opposed to existing editing work that primarily focuses on certain editing types or relies on additional controls (e.g., structural conditions, attention features, or DDIM inversion). On the other hand, when presented with a text prompt only, OmniCreator becomes generative, producing high-quality video as a result of the semantic correspondence learned. Importantly, we found that the same capabilities extend to images as is, making OmniCreator a truly unified framework. Further, due to the lack of existing generative video editing benchmarks, we introduce the OmniBench-99 dataset, designed to evaluate the performance of generative video editing models comprehensively. Extensive experiments demonstrate that OmniCreator exhibits substantial superiority over all other models.

Summary

AI-Generated Summary

PDF143December 4, 2024