Any2Caption: Interpretare Qualsiasi Condizione per Didascalie nella Generazione Controllata di Video

Abstract

Per affrontare il collo di bottiglia dell'interpretazione accurata dell'intento dell'utente all'interno della comunità attuale di generazione video, presentiamo Any2Caption, un nuovo framework per la generazione video controllabile in qualsiasi condizione. L'idea chiave è disaccoppiare i vari passaggi di interpretazione delle condizioni dal passaggio di sintesi video. Sfruttando moderni modelli linguistici multimodali di grandi dimensioni (MLLMs), Any2Caption interpreta input diversi—testo, immagini, video e segnali specializzati come regioni, movimento e pose della fotocamera—in didascalie dense e strutturate che offrono ai generatori video di base una guida migliore. Introduciamo inoltre Any2CapIns, un dataset su larga scala con 337K istanze e 407K condizioni per il tuning delle istruzioni da qualsiasi condizione a didascalia. Valutazioni complete dimostrano miglioramenti significativi del nostro sistema in termini di controllabilità e qualità video attraverso vari aspetti dei modelli esistenti di generazione video. Pagina del progetto: https://sqwu.top/Any2Cap/

English

To address the bottleneck of accurate user intent interpretation within the current video generation community, we present Any2Caption, a novel framework for controllable video generation under any condition. The key idea is to decouple various condition interpretation steps from the video synthesis step. By leveraging modern multimodal large language models (MLLMs), Any2Caption interprets diverse inputs--text, images, videos, and specialized cues such as region, motion, and camera poses--into dense, structured captions that offer backbone video generators with better guidance. We also introduce Any2CapIns, a large-scale dataset with 337K instances and 407K conditions for any-condition-to-caption instruction tuning. Comprehensive evaluations demonstrate significant improvements of our system in controllability and video quality across various aspects of existing video generation models. Project Page: https://sqwu.top/Any2Cap/

Any2Caption: Interpretare Qualsiasi Condizione per Didascalie nella Generazione Controllata di Video

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

Abstract

Summary

Support

Support