ChatPaper.aiChatPaper

VLsI: 대형에서 소형 비전 언어 모델의 층 간 상호작용에 대한 언어화된 연구

VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

December 2, 2024
저자: Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu
cs.AI

초록

최근에는 GPT-4V와 같은 폐쇄 소스 비전-언어 모델(VLMs)에서 고품질 시각 지시 조정 샘플의 급증으로, 다양한 모델 크기의 오픈 소스 VLMs가 출시되는 속도가 가속화되었습니다. 그러나 더 큰 모델을 사용하여 성능을 향상시키기 위해 VLMs를 확장하는 것은 특히 모바일 플랫폼 및 로봇과 같은 자원 제한된 장치에 배포하는 데 상당한 계산적 도전이 따릅니다. 이에 대응하기 위해 우리는 효율성을 우선시하면서도 정확도를 희생하지 않는 새로운 VLM 패밀리인 VLsI: Verbalized Layers-to-Interactions를 제안합니다. VLsI는 2B 및 7B 모델 크기에서 작동하며, 각 레이어의 특징을 자연어 공간으로 매핑하는 중간 "verbalizers"를 도입하는 독특한 레이어별 증류 과정을 활용하여 작은 VLMs가 큰 VLMs의 추론 과정과 유연하게 일치할 수 있도록 합니다. 이 접근 방식은 출력 모방에서 종종 발생하는 훈련 불안정성을 완화하며, 작은 VLMs의 레이어별 진행을 대형 VLMs와 일치시킴으로써 전형적인 최종 레이어 조정을 넘어섭니다. 우리는 VLsI를 열 가지 어려운 비전-언어 벤치마크에서 검증하여, 모델 확장, 병합 또는 구조적 변경 없이 GPT-4V 대비 유의한 성능 향상(2B의 경우 11.0%, 7B의 경우 17.4%)을 달성했습니다.
English
The recent surge in high-quality visual instruction tuning samples from closed-source vision-language models (VLMs) such as GPT-4V has accelerated the release of open-source VLMs across various model sizes. However, scaling VLMs to improve performance using larger models brings significant computational challenges, especially for deployment on resource-constrained devices like mobile platforms and robots. To address this, we propose VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model sizes, which prioritizes efficiency without compromising accuracy. VLsI leverages a unique, layer-wise distillation process, introducing intermediate "verbalizers" that map features from each layer to natural language space, allowing smaller VLMs to flexibly align with the reasoning processes of larger VLMs. This approach mitigates the training instability often encountered in output imitation and goes beyond typical final-layer tuning by aligning the small VLMs' layer-wise progression with that of the large ones. We validate VLsI across ten challenging vision-language benchmarks, achieving notable performance gains (11.0% for 2B and 17.4% for 7B) over GPT-4V without the need for model scaling, merging, or architectural changes.

Summary

AI-Generated Summary

PDF152December 3, 2024