Infinity-MM: 대규모 및 고품질 교육 데이터로 다중 모달 성능 확장
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data
October 24, 2024
저자: Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu
cs.AI
초록
비전-언어 모델(Vision-Language Models, VLMs)은 최근 상당한 진전을 이루었지만 오픈 소스 지시 데이터의 제한된 규모와 품질은 닫힌 소스 모델에 비해 성능을 제약합니다. 본 연구에서는 이 한계를 극복하기 위해 4천만 개의 샘플을 갖는 대규모 다중 모달 지시 데이터셋인 Infinity-MM을 소개하며 엄격한 품질 필터링과 중복 제거를 통해 향상시켰습니다. 또한 상세한 이미지 주석과 다양한 질문 생성을 활용한 오픈 소스 VLM을 기반으로 한 합성 지시 생성 방법을 제안합니다. 이 데이터를 사용하여 20억 개의 파라미터를 갖는 Aquila-VL-2B 모델을 훈련시켜 동일 규모의 모델들에 대한 최신 기술 성능을 달성했습니다. 이는 지시 데이터를 확장하고 합성 데이터를 생성함으로써 오픈 소스 모델의 성능을 크게 향상시킬 수 있다는 것을 보여줍니다.
English
Vision-Language Models (VLMs) have recently made significant progress, but
the limited scale and quality of open-source instruction data hinder their
performance compared to closed-source models. In this work, we address this
limitation by introducing Infinity-MM, a large-scale multimodal instruction
dataset with 40 million samples, enhanced through rigorous quality filtering
and deduplication. We also propose a synthetic instruction generation method
based on open-source VLMs, using detailed image annotations and diverse
question generation. Using this data, we trained a 2-billion-parameter VLM,
Aquila-VL-2B, achieving state-of-the-art (SOTA) performance for models of
similar scale. This demonstrates that expanding instruction data and generating
synthetic data can significantly improve the performance of open-source models.Summary
AI-Generated Summary