Autoregressive Modelle in der Bildverarbeitung: Eine Übersicht
Autoregressive Models in Vision: A Survey
November 8, 2024
Autoren: Jing Xiong, Gongye Liu, Lun Huang, Chengyue Wu, Taiqiang Wu, Yao Mu, Yuan Yao, Hui Shen, Zhongwei Wan, Jinfa Huang, Chaofan Tao, Shen Yan, Huaxiu Yao, Lingpeng Kong, Hongxia Yang, Mi Zhang, Guillermo Sapiro, Jiebo Luo, Ping Luo, Ngai Wong
cs.AI
Zusammenfassung
Die autoregressive Modellierung war ein großer Erfolg im Bereich der natürlichen Sprachverarbeitung (NLP). In letzter Zeit sind autoregressive Modelle als ein bedeutender Schwerpunkt im Bereich der Computer Vision aufgetaucht, wo sie sich durch die Erzeugung hochwertiger visueller Inhalte auszeichnen. Autoregressive Modelle in NLP arbeiten typischerweise mit Teilwort-Token. Die Repräsentationsstrategie in der Computer Vision kann jedoch auf verschiedenen Ebenen variieren, d.h. auf Pixel-Ebene, Token-Ebene oder Skalen-Ebene, was die vielfältige und hierarchische Natur visueller Daten im Vergleich zur sequenziellen Struktur von Sprache widerspiegelt. Diese Übersicht untersucht umfassend die Literatur über autoregressive Modelle, die auf die Vision angewendet werden. Um die Lesbarkeit für Forscher aus verschiedenen Forschungsbereichen zu verbessern, beginnen wir mit der vorläufigen Sequenzrepräsentation und Modellierung in der Vision. Anschließend unterteilen wir die grundlegenden Rahmenbedingungen visueller autoregressiver Modelle in drei allgemeine Unterkategorien, einschließlich pixelbasierter, tokenbasierter und skalenbasierter Modelle, basierend auf der Repräsentationsstrategie. Wir untersuchen dann die Verbindungen zwischen autoregressiven Modellen und anderen generativen Modellen. Darüber hinaus präsentieren wir eine vielschichtige Kategorisierung autoregressiver Modelle in der Computer Vision, einschließlich Bildgenerierung, Videogenerierung, 3D-Generierung und multimodaler Generierung. Wir erläutern auch ihre Anwendungen in verschiedenen Bereichen, einschließlich aufstrebender Bereiche wie Embodied AI und 3D-Medizin-AI, mit etwa 250 relevanten Referenzen. Abschließend heben wir die aktuellen Herausforderungen für autoregressive Modelle in der Vision hervor und geben Empfehlungen für potenzielle Forschungsrichtungen. Wir haben auch ein Github-Repository eingerichtet, um die in dieser Übersicht enthaltenen Arbeiten zu organisieren unter: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
English
Autoregressive modeling has been a huge success in the field of natural
language processing (NLP). Recently, autoregressive models have emerged as a
significant area of focus in computer vision, where they excel in producing
high-quality visual content. Autoregressive models in NLP typically operate on
subword tokens. However, the representation strategy in computer vision can
vary in different levels, i.e., pixel-level, token-level, or
scale-level, reflecting the diverse and hierarchical nature of visual data
compared to the sequential structure of language. This survey comprehensively
examines the literature on autoregressive models applied to vision. To improve
readability for researchers from diverse research backgrounds, we start with
preliminary sequence representation and modeling in vision. Next, we divide the
fundamental frameworks of visual autoregressive models into three general
sub-categories, including pixel-based, token-based, and scale-based models
based on the strategy of representation. We then explore the interconnections
between autoregressive models and other generative models. Furthermore, we
present a multi-faceted categorization of autoregressive models in computer
vision, including image generation, video generation, 3D generation, and
multi-modal generation. We also elaborate on their applications in diverse
domains, including emerging domains such as embodied AI and 3D medical AI, with
about 250 related references. Finally, we highlight the current challenges to
autoregressive models in vision with suggestions about potential research
directions. We have also set up a Github repository to organize the papers
included in this survey at:
https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.Summary
AI-Generated Summary