InstanceCap: Migliorare la Generazione Testo-Video tramite Didascalie Strutturate Consapevoli delle Istanze
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption
December 12, 2024
Autori: Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai
cs.AI
Abstract
La generazione di video da testo ha subito un'evoluzione rapida negli ultimi anni, producendo risultati notevoli. L'addestramento si basa tipicamente su dati accoppiati testo-video, che svolgono un ruolo cruciale nel migliorare le prestazioni di generazione. Tuttavia, le didascalie video attuali spesso soffrono di dettagli insufficienti, allucinazioni e rappresentazioni imprecise del movimento, che influiscono sulla fedeltà e coerenza dei video generati. In questo lavoro, proponiamo un nuovo framework di didascalie strutturate a livello di istanza, denominato InstanceCap, per ottenere per la prima volta didascalie video a livello di istanza e dettagliate. Basandoci su questo schema, progettiamo un cluster di modelli ausiliari per convertire il video originale in istanze al fine di migliorare la fedeltà dell'istanza. Le istanze video vengono inoltre utilizzate per perfezionare prompt densi in frasi strutturate, ottenendo descrizioni concise ma precise. Inoltre, è stato creato un dataset di 22K istanze video per l'addestramento, e è stata proposta una pipeline di miglioramento adattata alla struttura di InstanceCap per l'inferenza. I risultati sperimentali dimostrano che il nostro proposto InstanceCap supera significativamente i modelli precedenti, garantendo un'alta fedeltà tra didascalie e video e riducendo le allucinazioni.
English
Text-to-video generation has evolved rapidly in recent years, delivering
remarkable results. Training typically relies on video-caption paired data,
which plays a crucial role in enhancing generation performance. However,
current video captions often suffer from insufficient details, hallucinations
and imprecise motion depiction, affecting the fidelity and consistency of
generated videos. In this work, we propose a novel instance-aware structured
caption framework, termed InstanceCap, to achieve instance-level and
fine-grained video caption for the first time. Based on this scheme, we design
an auxiliary models cluster to convert original video into instances to enhance
instance fidelity. Video instances are further used to refine dense prompts
into structured phrases, achieving concise yet precise descriptions.
Furthermore, a 22K InstanceVid dataset is curated for training, and an
enhancement pipeline that tailored to InstanceCap structure is proposed for
inference. Experimental results demonstrate that our proposed InstanceCap
significantly outperform previous models, ensuring high fidelity between
captions and videos while reducing hallucinations.Summary
AI-Generated Summary