LVD-2M: Een videodataset met lange opnames en temporally dense onderschriften

LVD-2M: A Long-take Video Dataset with Temporally Dense Captions

October 14, 2024
Auteurs: Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu
cs.AI

Samenvatting

De effectiviteit van videogeneratiemodellen is sterk afhankelijk van de kwaliteit van hun trainingsdatasets. De meeste eerdere videogeneratiemodellen worden getraind op korte videoclips, terwijl er recentelijk steeds meer interesse is in het direct trainen van langere videogeneratiemodellen op langere video's. Echter, het gebrek aan dergelijke hoogwaardige lange video's belemmert de vooruitgang van lang videogeneratie. Om onderzoek naar lang videogeneratie te bevorderen, streven we naar een nieuwe dataset met vier essentiële kenmerken voor het trainen van lang videogeneratiemodellen: (1) lange video's van minimaal 10 seconden, (2) lange opnames zonder cuts, (3) grote bewegingen en diverse inhoud, en (4) temporeel dichte bijschriften. Om dit te bereiken, introduceren we een nieuw proces voor het selecteren van hoogwaardige lange opnames en het genereren van temporeel dichte bijschriften. Specifiek definiëren we een reeks metrieken om de videokwaliteit kwantitatief te beoordelen, waaronder scènecuts, dynamische graden en kwaliteit op semantisch niveau, waardoor we hoogwaardige lange opnames kunnen filteren uit een grote hoeveelheid bronvideo's. Vervolgens ontwikkelen we een hiërarchisch videobijschriftproces om lange video's te annoteren met temporeel dichte bijschriften. Met dit proces cureren we de eerste dataset van lange opnames, LVD-2M, bestaande uit 2 miljoen lange opnames, elk van meer dan 10 seconden en geannoteerd met temporeel dichte bijschriften. We valideren verder de effectiviteit van LVD-2M door videogeneratiemodellen fijn af te stemmen om lange video's met dynamische bewegingen te genereren. We geloven dat ons werk aanzienlijk zal bijdragen aan toekomstig onderzoek naar lang videogeneratie.
English
The efficacy of video generation models heavily depends on the quality of their training datasets. Most previous video generation models are trained on short video clips, while recently there has been increasing interest in training long video generation models directly on longer videos. However, the lack of such high-quality long videos impedes the advancement of long video generation. To promote research in long video generation, we desire a new dataset with four key features essential for training long video generation models: (1) long videos covering at least 10 seconds, (2) long-take videos without cuts, (3) large motion and diverse contents, and (4) temporally dense captions. To achieve this, we introduce a new pipeline for selecting high-quality long-take videos and generating temporally dense captions. Specifically, we define a set of metrics to quantitatively assess video quality including scene cuts, dynamic degrees, and semantic-level quality, enabling us to filter high-quality long-take videos from a large amount of source videos. Subsequently, we develop a hierarchical video captioning pipeline to annotate long videos with temporally-dense captions. With this pipeline, we curate the first long-take video dataset, LVD-2M, comprising 2 million long-take videos, each covering more than 10 seconds and annotated with temporally dense captions. We further validate the effectiveness of LVD-2M by fine-tuning video generation models to generate long videos with dynamic motions. We believe our work will significantly contribute to future research in long video generation.

Summary

AI-Generated Summary

Paper Overzicht

Het onderzoek presenteert de creatie van de LVD-2M dataset met lange video's en dichte tijdelijke bijschriften. Een nieuwe pipeline wordt geïntroduceerd om hoogwaardige video's te selecteren en bijschriften te genereren, wat resulteert in verbeterde prestaties van video-generatiemodellen.

Kernbijdrage

  • Introductie van de LVD-2M dataset met 2 miljoen lange video's en dichte bijschriften.
  • Implementatie van een hiërarchische bijschriftbenadering voor het genereren van temporele bijschriften.
  • Verbetering van video-generatiemodellen door fine-tuning op de LVD-2M dataset.

Onderzoekscontext

Het onderzoek bevindt zich binnen het domein van machine learning voor video-generatie, met een focus op het verbeteren van modellen door middel van geavanceerde datasets zoals LVD-2M.

Trefwoorden

LVD-2M dataset, lange video's, dichte bijschriften, video-generatiemodellen, hiërarchische bijschriftbenadering, fine-tuning, machine learning

Achtergrond

Het onderzoek richt zich op het aanpakken van de tekortkomingen van bestaande datasets voor video-generatie door de creatie van de LVD-2M dataset met geavanceerde video's en bijschriften.

Onderzoekskloof

  • Bestaande datasets missen lange video's met dichte bijschriften.
  • Er is behoefte aan verbeterde filteringstechnieken voor het selecteren van hoogwaardige video's.

Technische Uitdagingen

  • Selectie van lange video's met grote bewegingen.
  • Genereren van dichte bijschriften voor temporele video's.
  • Verbetering van video-generatiemodellen door fine-tuning.

Eerdere Benaderingen

  • Gebruik van optische stroom voor video-selectie.
  • Toepassing van semantische filtering voor kwaliteitsverbetering.
  • Hiërarchische bijschriftbenadering voor temporele annotatie.

Methodologie

Het onderzoek maakt gebruik van geavanceerde technieken zoals optische stroomberekening, semantische filtering en hiërarchische bijschriftbenadering voor de creatie en validatie van de LVD-2M dataset.

Theoretische Basis

  • Optische stroomberekening met RAFT voor video-selectie.
  • Gebruik van PLLaVA-7B voor semantische filtering.
  • Implementatie van LLaVA-v1.6-34B en Claude3-Haiku voor bijschriftgeneratie.

Technische Architectuur

  • Pipeline voor video-selectie en bijschriftgeneratie.
  • Hiërarchische benadering voor temporele bijschriften.

Implementatiedetails

  • Optische stroom berekend met een snelheid van 2 fps.
  • Criteria zoals diversiteit en perceptuele kwaliteit gebruikt voor filtering.
  • Opsplitsing van lange video's in clips van 30 seconden voor bijschriftannotatie.

Innovatiepunten

  • Introductie van LVD-2M dataset met verbeterde kwaliteit en diversiteit.
  • Fine-tuning van video-generatiemodellen voor betere prestaties.

Experimentele Validatie

Het onderzoek valideert de LVD-2M dataset door middel van prestatie-evaluaties van video-generatiemodellen en vergelijkingen met eerdere datasets.

Opstelling

  • Optische stroomberekening met RAFT.
  • Semantische filtering met MLLM en PLLaVA-7B.
  • Bijschriftgeneratie met LLaVA-v1.6-34B en Claude3-Haiku.

Metrieken

  • Evaluatie van scènewisselingen, dynamiek en bijschriftkwaliteit.
  • Vergelijking met menselijke beoordelingen en eerdere datasets.

Resultaten

  • Verbeterde prestaties van video-generatiemodellen na fine-tuning op LVD-2M.
  • Positieve beoordelingen door menselijke evaluaties.

Vergelijkende Analyse

  • Vergelijking van LVD-2M met eerdere datasets.
  • Betere prestaties van modellen na fine-tuning op LVD-2M.

Impact en Implicaties

Het onderzoek benadrukt de significante bijdrage van de LVD-2M dataset aan het verbeteren van video-generatiemodellen en identificeert toekomstige onderzoeksrichtingen en praktische toepassingen.

Belangrijkste Vindplaatsen

  • Verbeterde prestaties van video-generatiemodellen met LVD-2M.
  • Mogelijkheid voor filmproductie en andere toepassingen met lange video's.

Beperkingen

  • Mogelijke beperkingen in datasetdiversiteit en schaalbaarheid.
  • Verdere verbeteringen nodig voor geavanceerde modellen.

Toekomstige Richtingen

  • Onderzoek naar geavanceerde modellen en technieken voor video-generatie.
  • Uitbreiding van de dataset en evaluatie op verschillende scenario's.

Praktische Betekenis

  • Toepassing van LVD-2M dataset in filmproductie en andere industrieën.

  • Belang van detectie van nepvideo's en watermerktechnieken.

  • De dataset is openbaar beschikbaar en kan worden gebruikt voor diverse onderzoeks- en praktische toepassingen.

  • Verschillende fondsen van de Universiteit van Hong Kong hebben het onderzoek ondersteund, wat de waarde en relevantie ervan benadrukt.

  • Gebruikersstudies tonen de effectiviteit en bruikbaarheid van de voorgestelde methoden.

  • De datasetdocumentatie en licentie-informatie zijn beschikbaar op de aangegeven links.

  • Figuur 21 illustreert de UI van de uitgevoerde gebruikersstudies in het onderzoek.

Uitgelichte Papers

DeepSeek-R1: Het stimuleren van redeneervermogen in LLM's via Reinforcement Learning
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253735

Technisch Rapport Qwen2.5
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436311

MiniMax-01: Schalen van Foundation Modellen met Bliksem Aandacht
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia WuJan 14, 20252836

PDF213November 16, 2024