GenMAC: Generazione testo-video compositiva con collaborazione multi-agente.
GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration
December 5, 2024
Autori: Kaiyi Huang, Yukun Huang, Xuefei Ning, Zinan Lin, Yu Wang, Xihui Liu
cs.AI
Abstract
I modelli di generazione testo-video hanno mostrato un significativo progresso negli ultimi anni. Tuttavia, continuano a lottare nella generazione di scene dinamiche complesse basate su prompt testuali compositi, come il legame degli attributi per oggetti multipli, la dinamica temporale associata a diversi oggetti e le interazioni tra gli oggetti. La nostra principale motivazione è che compiti complessi possono essere decomposti in compiti più semplici, ognuno gestito da un agente MLLM specializzato nel ruolo. Più agenti possono collaborare insieme per raggiungere un'intelligenza collettiva per obiettivi complessi. Proponiamo GenMAC, un framework iterativo multi-agente che consente la generazione composita testo-video. Il flusso di lavoro collaborativo include tre fasi: Progettazione, Generazione e Ridisegno, con un loop iterativo tra le fasi di Generazione e Ridisegno per verificare e perfezionare progressivamente i video generati. La fase di Ridisegno è la fase più impegnativa che mira a verificare i video generati, suggerire correzioni e ridisegnare i prompt testuali, i layout frame-wise e le scale di orientamento per la successiva iterazione di generazione. Per evitare l'illusione di un singolo agente MLLM, decomponiamo questa fase in quattro agenti basati su MLLM eseguiti in sequenza: agente di verifica, agente di suggerimento, agente di correzione e agente di strutturazione dell'output. Inoltre, per affrontare scenari diversi di generazione composita testo-video, progettiamo un meccanismo di autoinstradamento per selezionare in modo adattivo il corretto agente di correzione da una collezione di agenti di correzione, ognuno specializzato per uno scenario. Estesi esperimenti dimostrano l'efficacia di GenMAC, raggiungendo prestazioni all'avanguardia nella generazione composita testo-video.
English
Text-to-video generation models have shown significant progress in the recent
years. However, they still struggle with generating complex dynamic scenes
based on compositional text prompts, such as attribute binding for multiple
objects, temporal dynamics associated with different objects, and interactions
between objects. Our key motivation is that complex tasks can be decomposed
into simpler ones, each handled by a role-specialized MLLM agent. Multiple
agents can collaborate together to achieve collective intelligence for complex
goals. We propose GenMAC, an iterative, multi-agent framework that enables
compositional text-to-video generation. The collaborative workflow includes
three stages: Design, Generation, and Redesign, with an iterative loop between
the Generation and Redesign stages to progressively verify and refine the
generated videos. The Redesign stage is the most challenging stage that aims to
verify the generated videos, suggest corrections, and redesign the text
prompts, frame-wise layouts, and guidance scales for the next iteration of
generation. To avoid hallucination of a single MLLM agent, we decompose this
stage to four sequentially-executed MLLM-based agents: verification agent,
suggestion agent, correction agent, and output structuring agent. Furthermore,
to tackle diverse scenarios of compositional text-to-video generation, we
design a self-routing mechanism to adaptively select the proper correction
agent from a collection of correction agents each specialized for one scenario.
Extensive experiments demonstrate the effectiveness of GenMAC, achieving
state-of-the art performance in compositional text-to-video generation.Summary
AI-Generated Summary