Modelli Autorigressivi in Visione: Una Rassegna

Autoregressive Models in Vision: A Survey

November 8, 2024
Autori: Jing Xiong, Gongye Liu, Lun Huang, Chengyue Wu, Taiqiang Wu, Yao Mu, Yuan Yao, Hui Shen, Zhongwei Wan, Jinfa Huang, Chaofan Tao, Shen Yan, Huaxiu Yao, Lingpeng Kong, Hongxia Yang, Mi Zhang, Guillermo Sapiro, Jiebo Luo, Ping Luo, Ngai Wong
cs.AI

Abstract

La modellazione autoregressiva ha avuto un enorme successo nel campo dell'elaborazione del linguaggio naturale (NLP). Di recente, i modelli autoregressivi sono emersi come un'area significativa di interesse nella visione artificiale, dove eccellono nella produzione di contenuti visivi di alta qualità. I modelli autoregressivi nell'NLP operano tipicamente su token di sotto-parole. Tuttavia, la strategia di rappresentazione nella visione artificiale può variare a diversi livelli, ovvero a livello di pixel, a livello di token o a livello di scala, riflettendo la natura diversificata e gerarchica dei dati visivi rispetto alla struttura sequenziale del linguaggio. Questa panoramica esamina in modo esaustivo la letteratura sui modelli autoregressivi applicati alla visione. Per migliorare la leggibilità per i ricercatori provenienti da diversi ambiti di ricerca, iniziamo con la rappresentazione preliminare delle sequenze e la modellazione nella visione. Successivamente, suddividiamo i quadri fondamentali dei modelli autoregressivi visivi in tre sottocategorie generali, tra cui modelli basati su pixel, basati su token e basati su scala in base alla strategia di rappresentazione. Esploriamo poi le interconnessioni tra i modelli autoregressivi e altri modelli generativi. Inoltre, presentiamo una categorizzazione sfaccettata dei modelli autoregressivi nella visione artificiale, inclusa la generazione di immagini, la generazione di video, la generazione 3D e la generazione multimodale. Approfondiamo anche le loro applicazioni in diversi settori, inclusi settori emergenti come l'IA incorporata e l'IA medica 3D, con circa 250 riferimenti correlati. Infine, evidenziamo le sfide attuali dei modelli autoregressivi nella visione con suggerimenti su possibili direzioni di ricerca. Abbiamo inoltre creato un repository su Github per organizzare gli articoli inclusi in questa panoramica su: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
English
Autoregressive modeling has been a huge success in the field of natural language processing (NLP). Recently, autoregressive models have emerged as a significant area of focus in computer vision, where they excel in producing high-quality visual content. Autoregressive models in NLP typically operate on subword tokens. However, the representation strategy in computer vision can vary in different levels, i.e., pixel-level, token-level, or scale-level, reflecting the diverse and hierarchical nature of visual data compared to the sequential structure of language. This survey comprehensively examines the literature on autoregressive models applied to vision. To improve readability for researchers from diverse research backgrounds, we start with preliminary sequence representation and modeling in vision. Next, we divide the fundamental frameworks of visual autoregressive models into three general sub-categories, including pixel-based, token-based, and scale-based models based on the strategy of representation. We then explore the interconnections between autoregressive models and other generative models. Furthermore, we present a multi-faceted categorization of autoregressive models in computer vision, including image generation, video generation, 3D generation, and multi-modal generation. We also elaborate on their applications in diverse domains, including emerging domains such as embodied AI and 3D medical AI, with about 250 related references. Finally, we highlight the current challenges to autoregressive models in vision with suggestions about potential research directions. We have also set up a Github repository to organize the papers included in this survey at: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.

Summary

AI-Generated Summary

PDF142November 13, 2024