플럭스 스페이스: 정정된 플로우 트랜스포머에서 해체된 의미 편집
FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers
December 12, 2024
저자: Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag
cs.AI
초록
정정된 흐름 모델은 이미지 생성에서 우수한 능력을 보여주며 주목받는 접근 방식으로 등장했습니다. 그러나 시각적 생성에서 효과적일지라도, 정정된 흐름 모델은 종종 이미지의 해체 편집에 어려움을 겪습니다. 이 제한으로 인해 이미지의 관련 없는 측면을 영향을 주지 않고도 정확한 속성별 수정을 수행하는 능력이 제한됩니다. 본 논문에서는 FluxSpace를 소개합니다. 이는 Flux와 같은 정정된 흐름 변환기에 의해 생성된 이미지의 의미론을 제어할 수 있는 표현 공간을 활용하는 도메인에 중립적인 이미지 편집 방법입니다. 정정된 흐름 모델 내의 변환기 블록에서 학습한 표현을 활용하여, 우리는 다양한 이미지 편집 작업을 가능하게 하는 의미론적으로 해석 가능한 표현의 집합을 제안합니다. 이 작업은 미세한 이미지 편집부터 예술적 창작까지 다양한 이미지 편집 작업을 가능케 하는 확장 가능하고 효과적인 이미지 편집 접근 방식을 제공합니다.
English
Rectified flow models have emerged as a dominant approach in image
generation, showcasing impressive capabilities in high-quality image synthesis.
However, despite their effectiveness in visual generation, rectified flow
models often struggle with disentangled editing of images. This limitation
prevents the ability to perform precise, attribute-specific modifications
without affecting unrelated aspects of the image. In this paper, we introduce
FluxSpace, a domain-agnostic image editing method leveraging a representation
space with the ability to control the semantics of images generated by
rectified flow transformers, such as Flux. By leveraging the representations
learned by the transformer blocks within the rectified flow models, we propose
a set of semantically interpretable representations that enable a wide range of
image editing tasks, from fine-grained image editing to artistic creation. This
work offers a scalable and effective image editing approach, along with its
disentanglement capabilities.