NVILA: 효율적인 프론티어 시각 언어 모델
NVILA: Efficient Frontier Visual Language Models
December 5, 2024
저자: Zhijian Liu, Ligeng Zhu, Baifeng Shi, Zhuoyang Zhang, Yuming Lou, Shang Yang, Haocheng Xi, Shiyi Cao, Yuxian Gu, Dacheng Li, Xiuyu Li, Yunhao Fang, Yukang Chen, Cheng-Yu Hsieh, De-An Huang, An-Chieh Cheng, Vishwesh Nath, Jinyi Hu, Sifei Liu, Ranjay Krishna, Daguang Xu, Xiaolong Wang, Pavlo Molchanov, Jan Kautz, Hongxu Yin, Song Han, Yao Lu
cs.AI
초록
시각 언어 모델(Visual Language Models, VLMs)은 최근 몇 년 동안 정확도에서 상당한 진전을 이루었습니다. 그러나 그 효율성은 훨씬 더 적은 관심을 받았습니다. 본 논문은 효율성과 정확도를 최적화하기 위해 설계된 개방형 VLM인 NVILA를 소개합니다. VILA를 기반으로 구축하여, 우리는 먼저 공간 및 시간 해상도를 확장하고 시각적 토큰을 압축함으로써 모델 아키텍처를 개선합니다. 이 "확장 후 압축" 방식은 NVILA가 고해상도 이미지와 긴 비디오를 효율적으로 처리할 수 있게 합니다. 또한, NVILA의 효율성을 향상시키기 위해 교육, 세밀 조정, 배포를 포함한 전 과정에서 체계적인 조사를 실시합니다. NVILA는 다양한 이미지 및 비디오 벤치마크에서 많은 주요 개방형 및 프로프리어터리 VLMs의 정확도를 맞거나 능가합니다. 동시에 교육 비용을 4.5배, 세밀 조정 메모리 사용량을 3.4배, 사전 채우기 지연 시간을 1.6-2.2배, 디코딩 지연 시간을 1.2-2.8배 줄입니다. 우리는 곧 코드와 모델을 공개하여 재현성을 용이하게 할 예정입니다.
English
Visual language models (VLMs) have made significant advances in accuracy in
recent years. However, their efficiency has received much less attention. This
paper introduces NVILA, a family of open VLMs designed to optimize both
efficiency and accuracy. Building on top of VILA, we improve its model
architecture by first scaling up the spatial and temporal resolutions, and then
compressing visual tokens. This "scale-then-compress" approach enables NVILA to
efficiently process high-resolution images and long videos. We also conduct a
systematic investigation to enhance the efficiency of NVILA throughout its
entire lifecycle, from training and fine-tuning to deployment. NVILA matches or
surpasses the accuracy of many leading open and proprietary VLMs across a wide
range of image and video benchmarks. At the same time, it reduces training
costs by 4.5X, fine-tuning memory usage by 3.4X, pre-filling latency by
1.6-2.2X, and decoding latency by 1.2-2.8X. We will soon make our code and
models available to facilitate reproducibility.Summary
AI-Generated Summary