DropletVideo: Ein Datensatz und Ansatz zur Erforschung integraler raumzeitlich konsistenter Videogenerierung
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation
March 8, 2025
Autoren: Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI
Zusammenfassung
Die räumlich-zeitliche Konsistenz ist ein zentrales Forschungsthema in der Videogenerierung. Ein qualitativ hochwertiges generiertes Videosegment muss sowohl die Plausibilität und Kohärenz der Handlung gewährleisten als auch die visuelle Konsistenz von Objekten und Szenen über verschiedene Blickwinkel hinweg bewahren. Bisherige Forschung, insbesondere in Open-Source-Projekten, konzentriert sich hauptsächlich entweder auf zeitliche oder räumliche Konsistenz oder deren grundlegende Kombination, wie beispielsweise das Anhängen einer Beschreibung einer Kamerabewegung nach einem Prompt, ohne die Ergebnisse dieser Bewegung einzuschränken. Allerdings kann eine Kamerabewegung neue Objekte in die Szene einführen oder bestehende entfernen, wodurch die vorherige Handlung überlagert und beeinflusst wird. Besonders in Videos mit zahlreichen Kamerabewegungen wird das Zusammenspiel zwischen mehreren Handlungssträngen zunehmend komplex. Dieses Papier führt und untersucht die integrale räumlich-zeitliche Konsistenz, wobei die Synergie zwischen Handlungsfortschritt und Kameratechniken sowie die langfristigen Auswirkungen vorheriger Inhalte auf die nachfolgende Generierung berücksichtigt werden. Unsere Forschung umfasst die Konstruktion eines Datensatzes bis hin zur Entwicklung des Modells. Zunächst haben wir den DropletVideo-10M-Datensatz erstellt, der 10 Millionen Videos mit dynamischen Kamerabewegungen und Objektaktionen enthält. Jedes Video ist mit einer durchschnittlichen Beschreibung von 206 Wörtern annotiert, die verschiedene Kamerabewegungen und Handlungsentwicklungen detailliert. Anschließend haben wir das DropletVideo-Modell entwickelt und trainiert, das sich durch die Bewahrung räumlich-zeitlicher Kohärenz während der Videogenerierung auszeichnet. Der DropletVideo-Datensatz und das Modell sind unter https://dropletx.github.io zugänglich.
English
Spatio-temporal consistency is a critical research topic in video generation.
A qualified generated video segment must ensure plot plausibility and coherence
while maintaining visual consistency of objects and scenes across varying
viewpoints. Prior research, especially in open-source projects, primarily
focuses on either temporal or spatial consistency, or their basic combination,
such as appending a description of a camera movement after a prompt without
constraining the outcomes of this movement. However, camera movement may
introduce new objects to the scene or eliminate existing ones, thereby
overlaying and affecting the preceding narrative. Especially in videos with
numerous camera movements, the interplay between multiple plots becomes
increasingly complex. This paper introduces and examines integral
spatio-temporal consistency, considering the synergy between plot progression
and camera techniques, and the long-term impact of prior content on subsequent
generation. Our research encompasses dataset construction through to the
development of the model. Initially, we constructed a DropletVideo-10M dataset,
which comprises 10 million videos featuring dynamic camera motion and object
actions. Each video is annotated with an average caption of 206 words,
detailing various camera movements and plot developments. Following this, we
developed and trained the DropletVideo model, which excels in preserving
spatio-temporal coherence during video generation. The DropletVideo dataset and
model are accessible at https://dropletx.github.io.Summary
AI-Generated Summary