OmniFlow: 다-다 생성과 다중 모달 정정된 플로우
OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows
December 2, 2024
저자: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Zichun Liao, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI
초록
우리는 OmniFlow를 소개합니다. 이는 텍스트에서 이미지, 텍스트에서 오디오, 오디오에서 이미지 등과 같은 모든-모든 생성 작업을 위해 설계된 혁신적인 생성 모델입니다. OmniFlow는 다중 모달리티의 결합 분포를 다루기 위해 텍스트에서 이미지 모델에 사용된 수정된 플로우(RF) 프레임워크를 발전시켰습니다. 이 모델은 텍스트에서 이미지 및 텍스트에서 오디오 합성과 같은 다양한 작업에서 이전의 모든-모든 모델을 능가합니다. 우리의 연구는 세 가지 주요 기여를 제공합니다. 첫째, 우리는 RF를 다중 모달리티 환경으로 확장하고 새로운 가이던스 메커니즘을 도입하여 사용자가 생성된 출력물에서 다른 모달리티 간의 정렬을 유연하게 제어할 수 있도록 합니다. 둘째, 우리는 Stable Diffusion 3의 텍스트-이미지 MMDiT 아키텍처를 확장하고 오디오 및 텍스트 생성을 가능하게 하는 새로운 아키텍처를 제안합니다. 확장된 모듈은 효율적으로 개별적으로 사전 훈련될 수 있으며 바닐라 텍스트-이미지 MMDiT와 병합되어 세밀한 조정을 위해 사용될 수 있습니다. 마지막으로, 우리는 대규모 오디오 및 텍스트 생성을 위한 수정된 플로우 트랜스포머의 설계 선택에 대한 포괄적인 연구를 수행하여 다양한 모달리티 간의 성능 최적화에 대한 유용한 통찰을 제공합니다. 코드는 https://github.com/jacklishufan/OmniFlows에서 제공될 예정입니다.
English
We introduce OmniFlow, a novel generative model designed for any-to-any
generation tasks such as text-to-image, text-to-audio, and audio-to-image
synthesis. OmniFlow advances the rectified flow (RF) framework used in
text-to-image models to handle the joint distribution of multiple modalities.
It outperforms previous any-to-any models on a wide range of tasks, such as
text-to-image and text-to-audio synthesis. Our work offers three key
contributions: First, we extend RF to a multi-modal setting and introduce a
novel guidance mechanism, enabling users to flexibly control the alignment
between different modalities in the generated outputs. Second, we propose a
novel architecture that extends the text-to-image MMDiT architecture of Stable
Diffusion 3 and enables audio and text generation. The extended modules can be
efficiently pretrained individually and merged with the vanilla text-to-image
MMDiT for fine-tuning. Lastly, we conduct a comprehensive study on the design
choices of rectified flow transformers for large-scale audio and text
generation, providing valuable insights into optimizing performance across
diverse modalities. The Code will be available at
https://github.com/jacklishufan/OmniFlows.Summary
AI-Generated Summary