ChatPaper.aiChatPaper

Shakti-VLM: Масштабируемые модели обработки визуальных и текстовых данных для корпоративного искусственного интеллекта

Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI

February 24, 2025
Авторы: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI

Аннотация

Мы представляем Shakti VLM — семейство визуально-языковых моделей с объемом параметров 1 млрд и 4 млрд, разработанных для решения проблем эффективности данных в мультимодальном обучении. В то время как современные VLM достигают высокой производительности за счет использования обширных обучающих данных, модели Shakti используют архитектурные инновации для достижения конкурентоспособных результатов с меньшим количеством токенов. Ключевые улучшения включают QK-нормализацию для стабильности внимания, гибридные методы нормализации и усовершенствованное позиционное кодирование. Трехэтапная стратегия обучения дополнительно оптимизирует эффективность обучения. Оценки показывают, что Shakti-VLM-1B и Shakti-VLM-4B превосходят в задачах понимания документов, визуального рассуждения, извлечения OCR и общего мультимодального анализа. Наши результаты подчеркивают, что высокая производительность может быть достигнута за счет дизайна модели и стратегии обучения, а не только за счет объема данных, что делает Shakti эффективным решением для мультимодальных задач в масштабах предприятий.
English
We introduce Shakti VLM, a family of vision-language models in the capacity of 1B and 4B parameters designed to address data efficiency challenges in multimodal learning. While recent VLMs achieve strong performance through extensive training data, Shakti models leverage architectural innovations to attain competitive results with fewer tokens. Key advancements include QK-Normalization for attention stability, hybrid normalization techniques, and enhanced positional encoding. A three-stage training strategy further optimizes learning efficiency. Evaluations show that Shakti-Shakti-VLM-1B and Shakti-VLM-4B excel in document understanding, Visual Reasoning, OCR extraction, and general multimodal reasoning. Our results highlight that high performance can be achieved through model design and training strategy rather than sheer data volume, making Shakti an efficient solution for enterprise-scale multimodal tasks.

Summary

AI-Generated Summary

PDF32February 26, 2025