視覺中的自回歸模型:一項調查
Autoregressive Models in Vision: A Survey
November 8, 2024
作者: Jing Xiong, Gongye Liu, Lun Huang, Chengyue Wu, Taiqiang Wu, Yao Mu, Yuan Yao, Hui Shen, Zhongwei Wan, Jinfa Huang, Chaofan Tao, Shen Yan, Huaxiu Yao, Lingpeng Kong, Hongxia Yang, Mi Zhang, Guillermo Sapiro, Jiebo Luo, Ping Luo, Ngai Wong
cs.AI
摘要
自回歸建模在自然語言處理(NLP)領域取得了巨大成功。最近,自回歸模型在計算機視覺領域嶄露頭角,擅長生成高質量的視覺內容。在NLP中,自回歸模型通常操作於子詞元素上。然而,在計算機視覺中,表示策略可以在不同層次上變化,即像素級、標記級或尺度級,反映了視覺數據的多樣性和階層性,與語言的序列結構相比。本調查全面檢視了應用於視覺的自回歸模型文獻。為了提高不同研究背景的研究人員的可讀性,我們從視覺中的序列表示和建模開始。接下來,我們將視覺自回歸模型的基本框架分為三個一般子類別,包括基於像素、基於標記和基於尺度的模型,根據表示策略。然後,我們探索自回歸模型與其他生成模型之間的相互聯繫。此外,我們對計算機視覺中的自回歸模型進行了多方面的分類,包括圖像生成、視頻生成、3D生成和多模態生成。我們還詳細說明了它們在各種領域中的應用,包括新興領域,如具身人工智能和3D醫學人工智能,涉及約250個相關參考文獻。最後,我們強調了自回歸模型在視覺中面臨的當前挑戰,並提出了潛在的研究方向建議。我們還建立了一個Github存儲庫,以組織本調查中包含的論文,網址為:https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey。
English
Autoregressive modeling has been a huge success in the field of natural
language processing (NLP). Recently, autoregressive models have emerged as a
significant area of focus in computer vision, where they excel in producing
high-quality visual content. Autoregressive models in NLP typically operate on
subword tokens. However, the representation strategy in computer vision can
vary in different levels, i.e., pixel-level, token-level, or
scale-level, reflecting the diverse and hierarchical nature of visual data
compared to the sequential structure of language. This survey comprehensively
examines the literature on autoregressive models applied to vision. To improve
readability for researchers from diverse research backgrounds, we start with
preliminary sequence representation and modeling in vision. Next, we divide the
fundamental frameworks of visual autoregressive models into three general
sub-categories, including pixel-based, token-based, and scale-based models
based on the strategy of representation. We then explore the interconnections
between autoregressive models and other generative models. Furthermore, we
present a multi-faceted categorization of autoregressive models in computer
vision, including image generation, video generation, 3D generation, and
multi-modal generation. We also elaborate on their applications in diverse
domains, including emerging domains such as embodied AI and 3D medical AI, with
about 250 related references. Finally, we highlight the current challenges to
autoregressive models in vision with suggestions about potential research
directions. We have also set up a Github repository to organize the papers
included in this survey at:
https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.Summary
AI-Generated Summary
論文概述
本文綜合了多篇關於自動回歸模型在文本到圖像合成中的應用的研究文獻,突出了不同模型類別的創新、技術挑戰、實驗驗證和應用影響。研究對於視覺自回歸模型的發展和應用提供了重要參考價值。
核心貢獻
- 提出了像素級、標記級和尺度級自回歸模型,展現了在視覺生成領域的多樣性和層次性。
- 比較了自回歸模型與其他生成模型的優勢,強調了其在高質量樣本生成和多模態輸入輸出任務中的性能。
- 探討了自回歸模型在文本到圖像合成、視頻生成和多模態生成等方面的應用,並與大型語言模型結合以提高模型性能。
研究背景
本研究背景包括自回歸模型在視覺生成領域的應用,技術挑戰如計算複雜性和模式崩潰問題,以及先前方法的詳細分析。
研究缺口
- 需要發展統一的自回歸模型以適應不同視覺任務。
- 需要解決計算複雜性和模式崩潰等問題,提高模型的性能和韌性。
技術挑戰
- 自回歸模型的計算複雜性和模式崩潰問題。
- 如何發展統一的自回歸模型以適應不同視覺任務。
先前方法
- 比較了不同生成模型的性能和特點,如DeLVM、AiM、ZigMa等。
- 探討了不同自回歸模型的設計和應用,如VQ-Diffusion、Kaleido Diffusion等。
方法論
本文介紹了視覺自回歸模型的基本框架,包括不同模型類別的理論基礎、技術架構、實現細節和創新點。
理論基礎
- 使用序列表示和序列建模作為自回歸模型的基礎。
- 引入多尺度量化自編碼器和VQ技術進行視覺數據的表示和生成。
技術架構
- 不同模型類別的技術架構,包括像素級、標記級和尺度級模型。
- 引入LSTM、VQVAE等技術實現自回歸生成。
實現細節
- 具體算法、方法和工具的實現,如PixelRNN、Transformer等。
- 強調了自回歸模型在高質量樣本生成和多模態輸入輸出任務中的優勢。
創新點
- 提出了新的自回歸模型類別,如像素級、標記級和尺度級模型。
- 探討了自回歸模型在文本到圖像合成、視頻生成和多模態生成等方面的應用。
實驗驗證
本文描述了對視覺自回歸模型的實驗驗證,包括具體配置、評估指標、結果和與基準方法的比較分析。
實驗設置
- 精確配置、參數和數據集等實驗設置。
- 使用不同評估指標和數據集進行模型性能評估。
評估指標
- 包括PSNR、SSIM、LPIPS、rFID、NLL、IS、FID等指標。
- 用於評估視覺標記重建和生成質量等方面。
實驗結果
- 提供了具體的實驗結果,包括定量和定性發現。
- 強調了不同自回歸模型在不同任務上的性能表現。
比較分析
- 與基準方法的比較分析,突出自回歸模型的優勢和特點。
- 探討不同模型在生成質量和效率方面的差異。
影響和意義
本文討論了視覺自回歸模型的影響和意義,包括關鍵發現、限制、未來方向和實際應用。
關鍵發現
- 自回歸模型在視覺生成、多模態任務和醫學應用等領域的多樣應用。
- 研究挑戰和未來發展方向的探討。
限制
- 自回歸模型存在的計算複雜性和模式崩潰問題。
- 需要進一步研究如何發展統一的自回歸模型以適應不同視覺任務。
未來方向
- 探索語言模型中的擴展規律在自回歸視覺生成中的應用。
- 通過增加模型參數來實現可擴展的圖像生成。
實際意義
- 自回歸模型在文本到圖像合成、視頻生成和多模態生成等方面的應用。
- 提供了對視覺自回歸模型在現實應用中的具體價值和意義。
1比特LLM時代:所有大型語言模型都在1.58比特。The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
1比特LLM時代:所有大型語言模型都在1.58比特。
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei•Feb 27, 2024•612142
DeepSeek-R1:通過強化學習激勵LLM中的推理能力DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning
DeepSeek-R1:通過強化學習激勵LLM中的推理能力
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning
DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang•Jan 22, 2025•3685
Qwen2.5 技術報告Qwen2.5 Technical Report
Qwen2.5 技術報告
Qwen2.5 Technical Report
Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan Qiu•Dec 19, 2024•36311