Any2Caption: Interpretare Qualsiasi Condizione per Didascalie nella Generazione Controllata di Video
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation
March 31, 2025
Autori: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI
Abstract
Per affrontare il collo di bottiglia dell'interpretazione accurata dell'intento dell'utente all'interno della comunità attuale di generazione video, presentiamo Any2Caption, un nuovo framework per la generazione video controllabile in qualsiasi condizione. L'idea chiave è disaccoppiare i vari passaggi di interpretazione delle condizioni dal passaggio di sintesi video. Sfruttando moderni modelli linguistici multimodali di grandi dimensioni (MLLMs), Any2Caption interpreta input diversi—testo, immagini, video e segnali specializzati come regioni, movimento e pose della fotocamera—in didascalie dense e strutturate che offrono ai generatori video di base una guida migliore. Introduciamo inoltre Any2CapIns, un dataset su larga scala con 337K istanze e 407K condizioni per il tuning delle istruzioni da qualsiasi condizione a didascalia. Valutazioni complete dimostrano miglioramenti significativi del nostro sistema in termini di controllabilità e qualità video attraverso vari aspetti dei modelli esistenti di generazione video. Pagina del progetto: https://sqwu.top/Any2Cap/
English
To address the bottleneck of accurate user intent interpretation within the
current video generation community, we present Any2Caption, a novel framework
for controllable video generation under any condition. The key idea is to
decouple various condition interpretation steps from the video synthesis step.
By leveraging modern multimodal large language models (MLLMs), Any2Caption
interprets diverse inputs--text, images, videos, and specialized cues such as
region, motion, and camera poses--into dense, structured captions that offer
backbone video generators with better guidance. We also introduce Any2CapIns, a
large-scale dataset with 337K instances and 407K conditions for
any-condition-to-caption instruction tuning. Comprehensive evaluations
demonstrate significant improvements of our system in controllability and video
quality across various aspects of existing video generation models. Project
Page: https://sqwu.top/Any2Cap/Summary
AI-Generated Summary