사운드웨이브: 대규모 언어 모델에서 음성-텍스트 정렬을 위한 '적은 것이 더 많다'
Soundwave: Less is More for Speech-Text Alignment in LLMs
February 18, 2025
저자: Yuhao Zhang, Zhiheng Liu, Fan Bu, Ruiyu Zhang, Benyou Wang, Haizhou Li
cs.AI
초록
기존의 종단 간(end-to-end) 음성 대형 언어 모델(LLM)은 일반적으로 대규모 주석 데이터에 의존하여 학습을 진행하지만, 데이터 효율적인 학습에 대해서는 깊이 있게 논의되지 않았습니다. 우리는 음성과 텍스트 간의 두 가지 근본적인 문제, 즉 표현 공간의 격차와 시퀀스 길이의 불일치에 초점을 맞췄습니다. 우리는 이러한 문제를 해결하기 위해 효율적인 학습 전략과 새로운 아키텍처를 활용한 Soundwave를 제안합니다. 실험 결과, Soundwave는 훈련 데이터의 1/50만을 사용하면서도 음성 번역 및 AIR-Bench 음성 작업에서 최신 모델인 Qwen2-Audio를 능가하는 성능을 보였습니다. 추가 분석을 통해 Soundwave가 대화 중에도 지능을 유지하는 것으로 나타났습니다. 이 프로젝트는 https://github.com/FreedomIntelligence/Soundwave에서 확인할 수 있습니다.
English
Existing end-to-end speech large language models (LLMs) usually rely on
large-scale annotated data for training, while data-efficient training has not
been discussed in depth. We focus on two fundamental problems between speech
and text: the representation space gap and sequence length inconsistency. We
propose Soundwave, which utilizes an efficient training strategy and a novel
architecture to address these issues. Results show that Soundwave outperforms
the advanced Qwen2-Audio in speech translation and AIR-Bench speech tasks,
using only one-fiftieth of the training data. Further analysis shows that
Soundwave still retains its intelligence during conversation. The project is
available at https://github.com/FreedomIntelligence/Soundwave.Summary
AI-Generated Summary