Autoregressieve modellen in visie: een overzicht
Autoregressive Models in Vision: A Survey
November 8, 2024
Auteurs: Jing Xiong, Gongye Liu, Lun Huang, Chengyue Wu, Taiqiang Wu, Yao Mu, Yuan Yao, Hui Shen, Zhongwei Wan, Jinfa Huang, Chaofan Tao, Shen Yan, Huaxiu Yao, Lingpeng Kong, Hongxia Yang, Mi Zhang, Guillermo Sapiro, Jiebo Luo, Ping Luo, Ngai Wong
cs.AI
Samenvatting
Autoregressieve modellering is een enorm succes geweest in het vakgebied van natuurlijke taalverwerking (NLP). Onlangs zijn autoregressieve modellen naar voren gekomen als een significant aandachtsgebied in de computervisie, waar ze uitblinken in het produceren van hoogwaardige visuele inhoud. Autoregressieve modellen in NLP werken doorgaans met subwoordtokens. De representatiestrategie in de computervisie kan echter variëren op verschillende niveaus, namelijk pixelniveau, tokenniveau of schaalniveau, wat de diverse en hiërarchische aard van visuele gegevens weerspiegelt in vergelijking met de sequentiële structuur van taal. Deze survey onderzoekt uitgebreid de literatuur over autoregressieve modellen toegepast op visie. Om de leesbaarheid te verbeteren voor onderzoekers uit diverse onderzoeksdomeinen, beginnen we met de voorlopige sequentierepresentatie en modellering in visie. Vervolgens verdelen we de fundamentele kaders van visuele autoregressieve modellen in drie algemene subcategorieën, waaronder op pixels gebaseerde, op tokens gebaseerde en op schaal gebaseerde modellen op basis van de representatiestrategie. We verkennen ook de onderlinge verbanden tussen autoregressieve modellen en andere generatieve modellen. Verder presenteren we een veelzijdige categorisatie van autoregressieve modellen in de computervisie, waaronder beeldgeneratie, videogeneratie, 3D-generatie en multimodale generatie. We gaan ook dieper in op hun toepassingen in diverse domeinen, waaronder opkomende domeinen zoals embodied AI en 3D medische AI, met ongeveer 250 gerelateerde referenties. Tot slot benadrukken we de huidige uitdagingen voor autoregressieve modellen in visie met suggesties voor mogelijke onderzoeksrichtingen. We hebben ook een Github-repository opgezet om de papers die in deze survey zijn opgenomen te organiseren op: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
English
Autoregressive modeling has been a huge success in the field of natural
language processing (NLP). Recently, autoregressive models have emerged as a
significant area of focus in computer vision, where they excel in producing
high-quality visual content. Autoregressive models in NLP typically operate on
subword tokens. However, the representation strategy in computer vision can
vary in different levels, i.e., pixel-level, token-level, or
scale-level, reflecting the diverse and hierarchical nature of visual data
compared to the sequential structure of language. This survey comprehensively
examines the literature on autoregressive models applied to vision. To improve
readability for researchers from diverse research backgrounds, we start with
preliminary sequence representation and modeling in vision. Next, we divide the
fundamental frameworks of visual autoregressive models into three general
sub-categories, including pixel-based, token-based, and scale-based models
based on the strategy of representation. We then explore the interconnections
between autoregressive models and other generative models. Furthermore, we
present a multi-faceted categorization of autoregressive models in computer
vision, including image generation, video generation, 3D generation, and
multi-modal generation. We also elaborate on their applications in diverse
domains, including emerging domains such as embodied AI and 3D medical AI, with
about 250 related references. Finally, we highlight the current challenges to
autoregressive models in vision with suggestions about potential research
directions. We have also set up a Github repository to organize the papers
included in this survey at:
https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.Summary
AI-Generated Summary