미니-Omni2: 시각, 음성 및 이중(duplex) 능력을 갖춘 오픈소스 GPT-4o를 향하여
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities
October 15, 2024
저자: Zhifei Xie, Changqiao Wu
cs.AI
초록
GPT-4o는 모든 것을 아우르는 모델로, 대규모 다중 모달 언어 모델 개발의 새로운 이정표를 나타냅니다. 시각적, 청각적, 텍스트적 모달리티를 이해하고, 오디오를 직접 출력하며 유연한 이중 상호작용을 지원할 수 있습니다. 오픈 소스 커뮤니티의 모델들은 종종 GPT-4o의 일부 기능을 달성하는데 성공했습니다. 그러나 모든 모달리티를 통합한 통합 모델을 훈련하는 것은 다중 모달 데이터의 복잡성, 복잡한 모델 아키텍처 및 훈련 과정 때문에 어렵습니다. 본 논문에서는 Mini-Omni2를 소개합니다. 이는 실시간으로 비전 및 오디오 쿼리에 대한 엔드-투-엔드 음성 응답을 제공할 수 있는 시각-오디오 어시스턴트입니다. 사전 훈련된 시각 및 청각 인코더를 통합하여 Mini-Omni2는 개별 모달리티에서 성능을 유지합니다. 우리는 모달리티를 조정하기 위한 세 단계의 훈련 과정을 제안하여, 제한된 데이터셋에서 훈련 후 다중 모달 입력 및 출력을 처리할 수 있는 언어 모델을 구축합니다. 상호작용을 위해 사용자와 더 유연하게 상호작용할 수 있도록 명령 기반 중단 메커니즘을 도입합니다. 우리의 지식으로는 Mini-Omni2가 GPT-4o의 가장 가까운 재현 중 하나이며, 유사한 형태의 기능을 갖추고 있으며, 이후 연구에 유용한 통찰을 제공할 수 있기를 희망합니다.
English
GPT-4o, an all-encompassing model, represents a milestone in the development
of large multi-modal language models. It can understand visual, auditory, and
textual modalities, directly output audio, and support flexible duplex
interaction. Models from the open-source community often achieve some
functionalities of GPT-4o, such as visual understanding and voice chat.
Nevertheless, training a unified model that incorporates all modalities is
challenging due to the complexities of multi-modal data, intricate model
architectures, and training processes. In this paper, we introduce Mini-Omni2,
a visual-audio assistant capable of providing real-time, end-to-end voice
responses to visoin and audio queries. By integrating pretrained visual and
auditory encoders, Mini-Omni2 maintains performance in individual modalities.
We propose a three-stage training process to align modalities, allowing the
language model to handle multi-modal inputs and outputs after training on a
limited dataset. For interaction, we introduce a command-based interruption
mechanism, enabling more flexible interaction with users. To the best of our
knowledge, Mini-Omni2 is one of the closest reproductions of GPT-4o, which have
similar form of functionality, and we hope it can offer valuable insights for
subsequent research.Summary
AI-Generated Summary