Quantisierung für OpenAI's Whisper-Modelle: Eine vergleichende Analyse
Quantization for OpenAI's Whisper Models: A Comparative Analysis
March 12, 2025
Autoren: Allison Andreyev
cs.AI
Zusammenfassung
Automatisierte Spracherkennungsmodelle (ASR) haben an Bedeutung gewonnen für Anwendungen wie Untertitelung, Sprachübersetzung und Live-Transkription. Diese Arbeit untersucht Whisper und zwei Modellvarianten: eine für Live-Sprachstreaming optimierte und eine für Offline-Transkription. Bemerkenswerterweise wurde festgestellt, dass diese Modelle halluzinierte Inhalte erzeugen, was die Zuverlässigkeit der Transkription verringert. Darüber hinaus weisen größere Modellvarianten eine erhöhte Latenz auf und stellen Herausforderungen für die Bereitstellung auf ressourcenbeschränkten Geräten dar. Diese Studie analysiert die Gemeinsamkeiten und Unterschiede zwischen drei Whisper-Modellen und untersucht qualitativ deren spezifische Fähigkeiten. Anschließend quantifiziert diese Studie die Auswirkungen der Modellquantisierung auf die Latenz und bewertet deren Eignung für den Einsatz auf Edge-Geräten. Unter Verwendung des Open-Source-Datensatzes LibriSpeech evaluiert diese Arbeit die Wortfehlerrate (WER) sowie die Latenzanalyse von whispercpp mit drei Quantisierungsmethoden (INT4, INT5, INT8). Die Ergebnisse zeigen, dass die Quantisierung die Latenz um 19\% und die Modellgröße um 45\% reduziert, während die Transkriptionsgenauigkeit erhalten bleibt. Diese Erkenntnisse bieten Einblicke in die optimalen Anwendungsfälle verschiedener Whisper-Modelle und die Möglichkeiten der Bereitstellung auf Edge-Geräten. Der gesamte Code, die Datensätze und Implementierungsdetails sind in einem öffentlichen GitHub-Repository verfügbar: https://github.com/allisonandreyev/WhisperQuantization.git.
English
Automated speech recognition (ASR) models have gained prominence for
applications such as captioning, speech translation, and live transcription.
This paper studies Whisper and two model variants: one optimized for live
speech streaming and another for offline transcription. Notably, these models
have been found to generate hallucinated content, reducing transcription
reliability. Furthermore, larger model variants exhibit increased latency and
pose challenges for deployment on resource-constrained devices. This study
analyzes the similarities and differences between three Whisper models,
qualitatively examining their distinct capabilities. Next, this study
quantifies the impact of model quantization on latency and evaluates its
viability for edge deployment. Using the open source LibriSpeech dataset, this
paper evaluates the word error rate (WER) along with latency analysis of
whispercpp using 3 quantization methods (INT4, INT5, INT8). Results show that
quantization reduces latency by 19\% and model size by 45\%, while preserving
transcription accuracy. These findings provide insights into the optimal use
cases of different Whisper models and edge device deployment possibilities. All
code, datasets, and implementation details are available in a public GitHub
repository: https://github.com/allisonandreyev/WhisperQuantization.gitSummary
AI-Generated Summary