Autoregressive Modelle in der Bildverarbeitung: Eine Übersicht

Autoregressive Models in Vision: A Survey

November 8, 2024
Autoren: Jing Xiong, Gongye Liu, Lun Huang, Chengyue Wu, Taiqiang Wu, Yao Mu, Yuan Yao, Hui Shen, Zhongwei Wan, Jinfa Huang, Chaofan Tao, Shen Yan, Huaxiu Yao, Lingpeng Kong, Hongxia Yang, Mi Zhang, Guillermo Sapiro, Jiebo Luo, Ping Luo, Ngai Wong
cs.AI

Zusammenfassung

Die autoregressive Modellierung war ein großer Erfolg im Bereich der natürlichen Sprachverarbeitung (NLP). In letzter Zeit sind autoregressive Modelle als ein bedeutender Schwerpunkt im Bereich der Computer Vision aufgetaucht, wo sie sich durch die Erzeugung hochwertiger visueller Inhalte auszeichnen. Autoregressive Modelle in NLP arbeiten typischerweise mit Teilwort-Token. Die Repräsentationsstrategie in der Computer Vision kann jedoch auf verschiedenen Ebenen variieren, d.h. auf Pixel-Ebene, Token-Ebene oder Skalen-Ebene, was die vielfältige und hierarchische Natur visueller Daten im Vergleich zur sequenziellen Struktur von Sprache widerspiegelt. Diese Übersicht untersucht umfassend die Literatur über autoregressive Modelle, die auf die Vision angewendet werden. Um die Lesbarkeit für Forscher aus verschiedenen Forschungsbereichen zu verbessern, beginnen wir mit der vorläufigen Sequenzrepräsentation und Modellierung in der Vision. Anschließend unterteilen wir die grundlegenden Rahmenbedingungen visueller autoregressiver Modelle in drei allgemeine Unterkategorien, einschließlich pixelbasierter, tokenbasierter und skalenbasierter Modelle, basierend auf der Repräsentationsstrategie. Wir untersuchen dann die Verbindungen zwischen autoregressiven Modellen und anderen generativen Modellen. Darüber hinaus präsentieren wir eine vielschichtige Kategorisierung autoregressiver Modelle in der Computer Vision, einschließlich Bildgenerierung, Videogenerierung, 3D-Generierung und multimodaler Generierung. Wir erläutern auch ihre Anwendungen in verschiedenen Bereichen, einschließlich aufstrebender Bereiche wie Embodied AI und 3D-Medizin-AI, mit etwa 250 relevanten Referenzen. Abschließend heben wir die aktuellen Herausforderungen für autoregressive Modelle in der Vision hervor und geben Empfehlungen für potenzielle Forschungsrichtungen. Wir haben auch ein Github-Repository eingerichtet, um die in dieser Übersicht enthaltenen Arbeiten zu organisieren unter: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
English
Autoregressive modeling has been a huge success in the field of natural language processing (NLP). Recently, autoregressive models have emerged as a significant area of focus in computer vision, where they excel in producing high-quality visual content. Autoregressive models in NLP typically operate on subword tokens. However, the representation strategy in computer vision can vary in different levels, i.e., pixel-level, token-level, or scale-level, reflecting the diverse and hierarchical nature of visual data compared to the sequential structure of language. This survey comprehensively examines the literature on autoregressive models applied to vision. To improve readability for researchers from diverse research backgrounds, we start with preliminary sequence representation and modeling in vision. Next, we divide the fundamental frameworks of visual autoregressive models into three general sub-categories, including pixel-based, token-based, and scale-based models based on the strategy of representation. We then explore the interconnections between autoregressive models and other generative models. Furthermore, we present a multi-faceted categorization of autoregressive models in computer vision, including image generation, video generation, 3D generation, and multi-modal generation. We also elaborate on their applications in diverse domains, including emerging domains such as embodied AI and 3D medical AI, with about 250 related references. Finally, we highlight the current challenges to autoregressive models in vision with suggestions about potential research directions. We have also set up a Github repository to organize the papers included in this survey at: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.

Summary

AI-Generated Summary

PDF142November 13, 2024