Shakti-VLM: Масштабируемые модели обработки визуальных и текстовых данных для корпоративного искусственного интеллекта
Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI
February 24, 2025
Авторы: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI
Аннотация
Мы представляем Shakti VLM — семейство визуально-языковых моделей с объемом параметров 1 млрд и 4 млрд, разработанных для решения проблем эффективности данных в мультимодальном обучении. В то время как современные VLM достигают высокой производительности за счет использования обширных обучающих данных, модели Shakti используют архитектурные инновации для достижения конкурентоспособных результатов с меньшим количеством токенов. Ключевые улучшения включают QK-нормализацию для стабильности внимания, гибридные методы нормализации и усовершенствованное позиционное кодирование. Трехэтапная стратегия обучения дополнительно оптимизирует эффективность обучения. Оценки показывают, что Shakti-VLM-1B и Shakti-VLM-4B превосходят в задачах понимания документов, визуального рассуждения, извлечения OCR и общего мультимодального анализа. Наши результаты подчеркивают, что высокая производительность может быть достигнута за счет дизайна модели и стратегии обучения, а не только за счет объема данных, что делает Shakti эффективным решением для мультимодальных задач в масштабах предприятий.
English
We introduce Shakti VLM, a family of vision-language models in the capacity
of 1B and 4B parameters designed to address data efficiency challenges in
multimodal learning. While recent VLMs achieve strong performance through
extensive training data, Shakti models leverage architectural innovations to
attain competitive results with fewer tokens. Key advancements include
QK-Normalization for attention stability, hybrid normalization techniques, and
enhanced positional encoding. A three-stage training strategy further optimizes
learning efficiency. Evaluations show that Shakti-Shakti-VLM-1B and
Shakti-VLM-4B excel in document understanding, Visual Reasoning, OCR
extraction, and general multimodal reasoning. Our results highlight that high
performance can be achieved through model design and training strategy rather
than sheer data volume, making Shakti an efficient solution for
enterprise-scale multimodal tasks.Summary
AI-Generated Summary