Ola: 진보된 Modal Alignment를 통해 Omni-Modal 언어 모델의 선두를 밀어나가다
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
February 6, 2025
저자: Zuyan Liu, Yuhao Dong, Jiahui Wang, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao
cs.AI
초록
최근 대형 언어 모델의 발전, 특히 GPT-4o를 따르는 것은 더 많은 모달리티를 이해할 수 있는 옴니-모달 모델을 개발하는 데 관심이 증가하도록 만들었습니다. 일부 오픈 소스 대안이 등장했지만, 성능 측면에서 전문화된 단일 모달리티 모델에는 아직 상당한 차이가 있습니다. 본 논문에서는 이미지, 비디오 및 오디오 이해에서 전문화된 대안과 경쟁력 있는 성능을 달성하는 옴니-모달 언어 모델인 Ola를 제안합니다. Ola의 핵심 설계는 언어 모델의 지원 모달리티를 점진적으로 확장하는 진행적 모달리티 정렬 전략에 있습니다. 저희의 훈련 파이프라인은 가장 다른 모달리티인 이미지와 텍스트로 시작하여, 언어와 오디오 지식을 연결하는 음성 데이터 및 모든 모달리티를 연결하는 비디오 데이터를 사용하여 모델의 기술 세트를 점진적으로 확장합니다. 진행적 학습 파이프라인은 또한 크로스-모달리티 정렬 데이터의 상대적으로 작은 크기를 유지하면서 기존의 비전-언어 모델에서 옴니-모달을 개발하는 것을 쉽고 비용 효율적으로 만듭니다. 또한, GPT-4o와 같은 고급 상호 작용 경험을 해제하기 위해, 우리는 스트리밍 음성 생성을 위한 문장별 디코딩 솔루션을 추가로 설계했습니다. 광범위한 실험 결과, Ola가 모든 모달리티에서 기존의 오픈 옴니-모달 LLM을 능가하면서 유사한 크기의 최첨단 전문화된 모델과 높은 경쟁력 있는 성능을 달성했습니다. 우리는 Ola를 미래의 연구를 발전시키기 위한 완전히 오픈된 옴니-모달 이해 솔루션으로 만들고자 합니다. 모델 가중치, 코드 및 데이터는 https://github.com/Ola-Omni/Ola에서 오픈 소스로 제공됩니다.
English
Recent advances in large language models, particularly following GPT-4o, have
sparked increasing interest in developing omni-modal models capable of
understanding more modalities. While some open-source alternatives have
emerged, there is still a notable lag behind specialized single-modality models
in performance. In this paper, we present Ola, an Omni-modal language model
that achieves competitive performance across image, video, and audio
understanding compared to specialized counterparts. The core design of Ola lies
in its progressive modality alignment strategy that extends the supporting
modality of the language model progressively. Our training pipeline begins with
the most distinct modalities: image and text, then gradually expands the skill
sets of the model using speech data that connects language and audio knowledge,
and video data that connects all modalities. The progressive learning pipeline
also enables us to maintain a relatively small size of the cross-modal
alignment data, making developing omni-modal from existing vision-language
models easy and less costly. Moreover, to unlock an advanced interactive
experience like GPT-4o, we further design a sentence-wise decoding solution for
streaming speech generation. Extensive experiments demonstrate that Ola
surpasses existing open omni-modal LLMs across all modalities while achieving
highly competitive performance compared to state-of-the-art specialized models
of similar sizes. We aim to make Ola a fully open omni-modal understanding
solution to advance future research in this emerging field. Model weights,
code, and data are open-sourced at https://github.com/Ola-Omni/Ola.Summary
AI-Generated Summary