Quantisierung für OpenAI's Whisper-Modelle: Eine vergleichende Analyse

Zusammenfassung

Automatisierte Spracherkennungsmodelle (ASR) haben an Bedeutung gewonnen für Anwendungen wie Untertitelung, Sprachübersetzung und Live-Transkription. Diese Arbeit untersucht Whisper und zwei Modellvarianten: eine für Live-Sprachstreaming optimierte und eine für Offline-Transkription. Bemerkenswerterweise wurde festgestellt, dass diese Modelle halluzinierte Inhalte erzeugen, was die Zuverlässigkeit der Transkription verringert. Darüber hinaus weisen größere Modellvarianten eine erhöhte Latenz auf und stellen Herausforderungen für die Bereitstellung auf ressourcenbeschränkten Geräten dar. Diese Studie analysiert die Gemeinsamkeiten und Unterschiede zwischen drei Whisper-Modellen und untersucht qualitativ deren spezifische Fähigkeiten. Anschließend quantifiziert diese Studie die Auswirkungen der Modellquantisierung auf die Latenz und bewertet deren Eignung für den Einsatz auf Edge-Geräten. Unter Verwendung des Open-Source-Datensatzes LibriSpeech evaluiert diese Arbeit die Wortfehlerrate (WER) sowie die Latenzanalyse von whispercpp mit drei Quantisierungsmethoden (INT4, INT5, INT8). Die Ergebnisse zeigen, dass die Quantisierung die Latenz um 19\% und die Modellgröße um 45\% reduziert, während die Transkriptionsgenauigkeit erhalten bleibt. Diese Erkenntnisse bieten Einblicke in die optimalen Anwendungsfälle verschiedener Whisper-Modelle und die Möglichkeiten der Bereitstellung auf Edge-Geräten. Der gesamte Code, die Datensätze und Implementierungsdetails sind in einem öffentlichen GitHub-Repository verfügbar: https://github.com/allisonandreyev/WhisperQuantization.git.

English

Automated speech recognition (ASR) models have gained prominence for applications such as captioning, speech translation, and live transcription. This paper studies Whisper and two model variants: one optimized for live speech streaming and another for offline transcription. Notably, these models have been found to generate hallucinated content, reducing transcription reliability. Furthermore, larger model variants exhibit increased latency and pose challenges for deployment on resource-constrained devices. This study analyzes the similarities and differences between three Whisper models, qualitatively examining their distinct capabilities. Next, this study quantifies the impact of model quantization on latency and evaluates its viability for edge deployment. Using the open source LibriSpeech dataset, this paper evaluates the word error rate (WER) along with latency analysis of whispercpp using 3 quantization methods (INT4, INT5, INT8). Results show that quantization reduces latency by 19\% and model size by 45\%, while preserving transcription accuracy. These findings provide insights into the optimal use cases of different Whisper models and edge device deployment possibilities. All code, datasets, and implementation details are available in a public GitHub repository: https://github.com/allisonandreyev/WhisperQuantization.git

Quantisierung für OpenAI's Whisper-Modelle: Eine vergleichende Analyse

Quantization for OpenAI's Whisper Models: A Comparative Analysis

Zusammenfassung

Summary

Support

Support