ChatPaper.aiChatPaper

CINEMA: Kohärente Multi-Subjekt-Videogenerierung durch MLLM-basierte Steuerung

CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance

March 13, 2025
Autoren: Yufan Deng, Xun Guo, Yizhi Wang, Jacob Zhiyuan Fang, Angtian Wang, Shenghai Yuan, Yiding Yang, Bo Liu, Haibin Huang, Chongyang Ma
cs.AI

Zusammenfassung

Die Videogenerierung hat mit dem Aufkommen tiefer generativer Modelle, insbesondere von Diffusionsmodellen, bemerkenswerte Fortschritte erzielt. Während bestehende Methoden in der Erzeugung hochwertiger Videos aus Textanweisungen oder Einzelbildern hervorragend sind, bleibt die personalisierte Multi-Subjekt-Videogenerierung eine weitgehend unerforschte Herausforderung. Diese Aufgabe umfasst die Synthese von Videos, die mehrere unterschiedliche Subjekte integrieren, die jeweils durch separate Referenzbilder definiert sind, wobei zeitliche und räumliche Konsistenz gewährleistet wird. Aktuelle Ansätze stützen sich hauptsächlich darauf, Subjektbilder auf Schlüsselwörter in Textanweisungen abzubilden, was Mehrdeutigkeiten einführt und ihre Fähigkeit zur effektiven Modellierung von Subjektbeziehungen einschränkt. In diesem Artikel stellen wir CINEMA vor, ein neuartiges Framework für die kohärente Multi-Subjekt-Videogenerierung, das auf Multimodalen Großen Sprachmodellen (MLLM) basiert. Unser Ansatz eliminiert die Notwendigkeit expliziter Korrespondenzen zwischen Subjektbildern und Textentitäten, reduziert Mehrdeutigkeiten und verringert den Annotationsaufwand. Indem wir MLLM nutzen, um Subjektbeziehungen zu interpretieren, ermöglicht unsere Methode Skalierbarkeit und die Verwendung großer und vielfältiger Datensätze für das Training. Darüber hinaus kann unser Framework auf eine variable Anzahl von Subjekten konditioniert werden, was eine größere Flexibilität bei der Erstellung personalisierter Inhalte bietet. Durch umfangreiche Evaluierungen zeigen wir, dass unser Ansatz die Subjektkonsistenz und die Gesamtkohärenz von Videos signifikant verbessert und den Weg für fortgeschrittene Anwendungen im Storytelling, interaktiven Medien und der personalisierten Videogenerierung ebnet.
English
Video generation has witnessed remarkable progress with the advent of deep generative models, particularly diffusion models. While existing methods excel in generating high-quality videos from text prompts or single images, personalized multi-subject video generation remains a largely unexplored challenge. This task involves synthesizing videos that incorporate multiple distinct subjects, each defined by separate reference images, while ensuring temporal and spatial consistency. Current approaches primarily rely on mapping subject images to keywords in text prompts, which introduces ambiguity and limits their ability to model subject relationships effectively. In this paper, we propose CINEMA, a novel framework for coherent multi-subject video generation by leveraging Multimodal Large Language Model (MLLM). Our approach eliminates the need for explicit correspondences between subject images and text entities, mitigating ambiguity and reducing annotation effort. By leveraging MLLM to interpret subject relationships, our method facilitates scalability, enabling the use of large and diverse datasets for training. Furthermore, our framework can be conditioned on varying numbers of subjects, offering greater flexibility in personalized content creation. Through extensive evaluations, we demonstrate that our approach significantly improves subject consistency, and overall video coherence, paving the way for advanced applications in storytelling, interactive media, and personalized video generation.

Summary

AI-Generated Summary

PDF102March 14, 2025