ChatPaper.aiChatPaper

InfiR: 추론을 위한 효과적인 소형 언어 모델 및 다중모달 소형 언어 모델 설계

InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

February 17, 2025
저자: Congkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang
cs.AI

초록

대형 언어 모델(LLM)과 멀티모달 대형 언어 모델(MLLM)은 추론 능력에서 상당한 발전을 이루었습니다. 그러나 여전히 높은 계산 요구량과 프라이버시 문제와 같은 과제에 직면해 있습니다. 본 논문은 경쟁력 있는 추론 능력을 유지하면서도 효율적인 소형 언어 모델(SLM)과 멀티모달 소형 언어 모델(MSLM)을 개발하는 데 초점을 맞춥니다. 우리는 추론 능력을 향상시키고 엣지 디바이스에서의 배포를 용이하게 하는 새로운 훈련 파이프라인을 소개하며, 개발 비용을 최소화하면서도 최첨단 성능을 달성합니다. \InfR~은 더 작은 모델 크기를 통해 추론 능력을 개선하고, 도입 장벽을 낮추며, 프라이버시 문제를 해결함으로써 AI 시스템의 발전을 목표로 합니다. 관련 리소스는 https://github.com/Reallm-Labs/InfiR에서 확인할 수 있습니다.
English
Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have made significant advancements in reasoning capabilities. However, they still face challenges such as high computational demands and privacy concerns. This paper focuses on developing efficient Small Language Models (SLMs) and Multimodal Small Language Models (MSLMs) that retain competitive reasoning abilities. We introduce a novel training pipeline that enhances reasoning capabilities and facilitates deployment on edge devices, achieving state-of-the-art performance while minimizing development costs. \InfR~ aims to advance AI systems by improving reasoning, reducing adoption barriers, and addressing privacy concerns through smaller model sizes. Resources are available at https://github. com/Reallm-Labs/InfiR.

Summary

AI-Generated Summary

PDF62February 20, 2025