OmniFlow: Generazione Any-to-Any con Flussi Rettificati Multi-Modalità
OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows
December 2, 2024
Autori: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Zichun Liao, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI
Abstract
Introduciamo OmniFlow, un nuovo modello generativo progettato per compiti di generazione any-to-any come testo-immagine, testo-audio e sintesi audio-immagine. OmniFlow avanza il framework di flusso rettificato (RF) utilizzato nei modelli testo-immagine per gestire la distribuzione congiunta di più modalità. Supera i modelli any-to-any precedenti in una vasta gamma di compiti, come la sintesi testo-immagine e testo-audio. Il nostro lavoro offre tre contributi chiave: Primo, estendiamo RF a un contesto multi-modale e introduciamo un meccanismo di guida innovativo, consentendo agli utenti di controllare flessibilmente l'allineamento tra diverse modalità nei risultati generati. Secondo, proponiamo un'architettura innovativa che estende l'architettura MMDiT testo-immagine di Stable Diffusion 3 e consente la generazione di audio e testo. I moduli estesi possono essere efficientemente preaddestrati singolarmente e uniti con il MMDiT testo-immagine base per il raffinamento finale. Infine, conduciamo uno studio esaustivo sulle scelte progettuali dei trasformatori di flusso rettificato per la generazione di audio e testo su larga scala, fornendo preziose intuizioni per ottimizzare le prestazioni tra diverse modalità. Il codice sarà disponibile su https://github.com/jacklishufan/OmniFlows.
English
We introduce OmniFlow, a novel generative model designed for any-to-any
generation tasks such as text-to-image, text-to-audio, and audio-to-image
synthesis. OmniFlow advances the rectified flow (RF) framework used in
text-to-image models to handle the joint distribution of multiple modalities.
It outperforms previous any-to-any models on a wide range of tasks, such as
text-to-image and text-to-audio synthesis. Our work offers three key
contributions: First, we extend RF to a multi-modal setting and introduce a
novel guidance mechanism, enabling users to flexibly control the alignment
between different modalities in the generated outputs. Second, we propose a
novel architecture that extends the text-to-image MMDiT architecture of Stable
Diffusion 3 and enables audio and text generation. The extended modules can be
efficiently pretrained individually and merged with the vanilla text-to-image
MMDiT for fine-tuning. Lastly, we conduct a comprehensive study on the design
choices of rectified flow transformers for large-scale audio and text
generation, providing valuable insights into optimizing performance across
diverse modalities. The Code will be available at
https://github.com/jacklishufan/OmniFlows.Summary
AI-Generated Summary