InstanceCap: Migliorare la Generazione Testo-Video tramite Didascalie Strutturate Consapevoli delle Istanze

Abstract

La generazione di video da testo ha subito un'evoluzione rapida negli ultimi anni, producendo risultati notevoli. L'addestramento si basa tipicamente su dati accoppiati testo-video, che svolgono un ruolo cruciale nel migliorare le prestazioni di generazione. Tuttavia, le didascalie video attuali spesso soffrono di dettagli insufficienti, allucinazioni e rappresentazioni imprecise del movimento, che influiscono sulla fedeltà e coerenza dei video generati. In questo lavoro, proponiamo un nuovo framework di didascalie strutturate a livello di istanza, denominato InstanceCap, per ottenere per la prima volta didascalie video a livello di istanza e dettagliate. Basandoci su questo schema, progettiamo un cluster di modelli ausiliari per convertire il video originale in istanze al fine di migliorare la fedeltà dell'istanza. Le istanze video vengono inoltre utilizzate per perfezionare prompt densi in frasi strutturate, ottenendo descrizioni concise ma precise. Inoltre, è stato creato un dataset di 22K istanze video per l'addestramento, e è stata proposta una pipeline di miglioramento adattata alla struttura di InstanceCap per l'inferenza. I risultati sperimentali dimostrano che il nostro proposto InstanceCap supera significativamente i modelli precedenti, garantendo un'alta fedeltà tra didascalie e video e riducendo le allucinazioni.

English

Text-to-video generation has evolved rapidly in recent years, delivering remarkable results. Training typically relies on video-caption paired data, which plays a crucial role in enhancing generation performance. However, current video captions often suffer from insufficient details, hallucinations and imprecise motion depiction, affecting the fidelity and consistency of generated videos. In this work, we propose a novel instance-aware structured caption framework, termed InstanceCap, to achieve instance-level and fine-grained video caption for the first time. Based on this scheme, we design an auxiliary models cluster to convert original video into instances to enhance instance fidelity. Video instances are further used to refine dense prompts into structured phrases, achieving concise yet precise descriptions. Furthermore, a 22K InstanceVid dataset is curated for training, and an enhancement pipeline that tailored to InstanceCap structure is proposed for inference. Experimental results demonstrate that our proposed InstanceCap significantly outperform previous models, ensuring high fidelity between captions and videos while reducing hallucinations.

InstanceCap: Migliorare la Generazione Testo-Video tramite Didascalie Strutturate Consapevoli delle Istanze

InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption

Abstract

Summary

Support