Cobra: Colorizzazione Efficiente di Line Art con Riferimenti più Ampi
Cobra: Efficient Line Art COlorization with BRoAder References
April 16, 2025
Autori: Junhao Zhuang, Lingen Li, Xuan Ju, Zhaoyang Zhang, Chun Yuan, Ying Shan
cs.AI
Abstract
L'industria della produzione di fumetti richiede una colorazione del line art basata su riferimenti con elevata precisione, efficienza, coerenza contestuale e controllo flessibile. Una pagina di fumetto spesso coinvolge personaggi, oggetti e sfondi diversificati, il che complica il processo di colorazione. Nonostante i progressi nei modelli di diffusione per la generazione di immagini, la loro applicazione nella colorazione del line art rimane limitata, affrontando sfide legate alla gestione di un ampio numero di immagini di riferimento, inferenze che richiedono tempo e controllo flessibile. Investigiamo la necessità di una guida contestuale estesa delle immagini sulla qualità della colorazione del line art. Per affrontare queste sfide, introduciamo Cobra, un metodo efficiente e versatile che supporta suggerimenti di colore e utilizza oltre 200 immagini di riferimento mantenendo una bassa latenza. Al centro di Cobra c'è un'architettura Causal Sparse DiT, che sfrutta codifiche posizionali appositamente progettate, attenzione causale sparsa e Key-Value Cache per gestire efficacemente i riferimenti a lungo contesto e garantire la coerenza dell'identità del colore. I risultati dimostrano che Cobra raggiunge una colorazione accurata del line art attraverso un ampio riferimento contestuale, migliorando significativamente la velocità di inferenza e l'interattività, soddisfacendo così le esigenze critiche dell'industria. Rilasciamo i nostri codici e modelli sulla pagina del progetto: https://zhuang2002.github.io/Cobra/.
English
The comic production industry requires reference-based line art colorization
with high accuracy, efficiency, contextual consistency, and flexible control. A
comic page often involves diverse characters, objects, and backgrounds, which
complicates the coloring process. Despite advancements in diffusion models for
image generation, their application in line art colorization remains limited,
facing challenges related to handling extensive reference images,
time-consuming inference, and flexible control. We investigate the necessity of
extensive contextual image guidance on the quality of line art colorization. To
address these challenges, we introduce Cobra, an efficient and versatile method
that supports color hints and utilizes over 200 reference images while
maintaining low latency. Central to Cobra is a Causal Sparse DiT architecture,
which leverages specially designed positional encodings, causal sparse
attention, and Key-Value Cache to effectively manage long-context references
and ensure color identity consistency. Results demonstrate that Cobra achieves
accurate line art colorization through extensive contextual reference,
significantly enhancing inference speed and interactivity, thereby meeting
critical industrial demands. We release our codes and models on our project
page: https://zhuang2002.github.io/Cobra/.Summary
AI-Generated Summary