LVD-2M: Een videodataset met lange opnames en temporally dense onderschriften
LVD-2M: A Long-take Video Dataset with Temporally Dense Captions
October 14, 2024
Auteurs: Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu
cs.AI
Samenvatting
De effectiviteit van videogeneratiemodellen is sterk afhankelijk van de kwaliteit van hun trainingsdatasets. De meeste eerdere videogeneratiemodellen worden getraind op korte videoclips, terwijl er recentelijk steeds meer interesse is in het direct trainen van langere videogeneratiemodellen op langere video's. Echter, het gebrek aan dergelijke hoogwaardige lange video's belemmert de vooruitgang van lang videogeneratie. Om onderzoek naar lang videogeneratie te bevorderen, streven we naar een nieuwe dataset met vier essentiële kenmerken voor het trainen van lang videogeneratiemodellen: (1) lange video's van minimaal 10 seconden, (2) lange opnames zonder cuts, (3) grote bewegingen en diverse inhoud, en (4) temporeel dichte bijschriften. Om dit te bereiken, introduceren we een nieuw proces voor het selecteren van hoogwaardige lange opnames en het genereren van temporeel dichte bijschriften. Specifiek definiëren we een reeks metrieken om de videokwaliteit kwantitatief te beoordelen, waaronder scènecuts, dynamische graden en kwaliteit op semantisch niveau, waardoor we hoogwaardige lange opnames kunnen filteren uit een grote hoeveelheid bronvideo's. Vervolgens ontwikkelen we een hiërarchisch videobijschriftproces om lange video's te annoteren met temporeel dichte bijschriften. Met dit proces cureren we de eerste dataset van lange opnames, LVD-2M, bestaande uit 2 miljoen lange opnames, elk van meer dan 10 seconden en geannoteerd met temporeel dichte bijschriften. We valideren verder de effectiviteit van LVD-2M door videogeneratiemodellen fijn af te stemmen om lange video's met dynamische bewegingen te genereren. We geloven dat ons werk aanzienlijk zal bijdragen aan toekomstig onderzoek naar lang videogeneratie.
English
The efficacy of video generation models heavily depends on the quality of
their training datasets. Most previous video generation models are trained on
short video clips, while recently there has been increasing interest in
training long video generation models directly on longer videos. However, the
lack of such high-quality long videos impedes the advancement of long video
generation. To promote research in long video generation, we desire a new
dataset with four key features essential for training long video generation
models: (1) long videos covering at least 10 seconds, (2) long-take videos
without cuts, (3) large motion and diverse contents, and (4) temporally dense
captions. To achieve this, we introduce a new pipeline for selecting
high-quality long-take videos and generating temporally dense captions.
Specifically, we define a set of metrics to quantitatively assess video quality
including scene cuts, dynamic degrees, and semantic-level quality, enabling us
to filter high-quality long-take videos from a large amount of source videos.
Subsequently, we develop a hierarchical video captioning pipeline to annotate
long videos with temporally-dense captions. With this pipeline, we curate the
first long-take video dataset, LVD-2M, comprising 2 million long-take videos,
each covering more than 10 seconds and annotated with temporally dense
captions. We further validate the effectiveness of LVD-2M by fine-tuning video
generation models to generate long videos with dynamic motions. We believe our
work will significantly contribute to future research in long video generation.Summary
AI-Generated Summary