Modèles autorégressifs en vision : une enquête
Autoregressive Models in Vision: A Survey
November 8, 2024
Auteurs: Jing Xiong, Gongye Liu, Lun Huang, Chengyue Wu, Taiqiang Wu, Yao Mu, Yuan Yao, Hui Shen, Zhongwei Wan, Jinfa Huang, Chaofan Tao, Shen Yan, Huaxiu Yao, Lingpeng Kong, Hongxia Yang, Mi Zhang, Guillermo Sapiro, Jiebo Luo, Ping Luo, Ngai Wong
cs.AI
Résumé
La modélisation autorégressive a connu un immense succès dans le domaine du traitement du langage naturel (NLP). Récemment, les modèles autorégressifs ont émergé comme un domaine d'intérêt majeur en vision par ordinateur, où ils excellent dans la production de contenus visuels de haute qualité. Les modèles autorégressifs en NLP opèrent généralement sur des jetons de sous-mots. Cependant, la stratégie de représentation en vision par ordinateur peut varier à différents niveaux, c'est-à-dire au niveau des pixels, au niveau des jetons ou au niveau de l'échelle, reflétant la nature diverse et hiérarchique des données visuelles par rapport à la structure séquentielle du langage. Cette étude examine de manière exhaustive la littérature sur les modèles autorégressifs appliqués à la vision. Pour améliorer la lisibilité pour les chercheurs de différents horizons de recherche, nous commençons par une représentation séquentielle préliminaire et la modélisation en vision. Ensuite, nous divisons les cadres fondamentaux des modèles autorégressifs visuels en trois sous-catégories générales, comprenant des modèles basés sur les pixels, les jetons et l'échelle en fonction de la stratégie de représentation. Nous explorons ensuite les interconnexions entre les modèles autorégressifs et d'autres modèles génératifs. De plus, nous présentons une catégorisation multifacette des modèles autorégressifs en vision, comprenant la génération d'images, la génération de vidéos, la génération 3D et la génération multi-modale. Nous détaillons également leurs applications dans divers domaines, y compris des domaines émergents tels que l'IA incarnée et l'IA médicale 3D, avec environ 250 références connexes. Enfin, nous mettons en évidence les défis actuels des modèles autorégressifs en vision avec des suggestions sur les orientations de recherche potentielles. Nous avons également mis en place un référentiel Github pour organiser les articles inclus dans cette étude à l'adresse suivante : https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
English
Autoregressive modeling has been a huge success in the field of natural
language processing (NLP). Recently, autoregressive models have emerged as a
significant area of focus in computer vision, where they excel in producing
high-quality visual content. Autoregressive models in NLP typically operate on
subword tokens. However, the representation strategy in computer vision can
vary in different levels, i.e., pixel-level, token-level, or
scale-level, reflecting the diverse and hierarchical nature of visual data
compared to the sequential structure of language. This survey comprehensively
examines the literature on autoregressive models applied to vision. To improve
readability for researchers from diverse research backgrounds, we start with
preliminary sequence representation and modeling in vision. Next, we divide the
fundamental frameworks of visual autoregressive models into three general
sub-categories, including pixel-based, token-based, and scale-based models
based on the strategy of representation. We then explore the interconnections
between autoregressive models and other generative models. Furthermore, we
present a multi-faceted categorization of autoregressive models in computer
vision, including image generation, video generation, 3D generation, and
multi-modal generation. We also elaborate on their applications in diverse
domains, including emerging domains such as embodied AI and 3D medical AI, with
about 250 related references. Finally, we highlight the current challenges to
autoregressive models in vision with suggestions about potential research
directions. We have also set up a Github repository to organize the papers
included in this survey at:
https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.Summary
AI-Generated Summary