Für Verzögerungen bei der Erkennung sind in der Regel drei Faktoren verantwortlich:
- Modell-LadephaseGroße Modelle (z. B. 300 MB große französische Modelle) brauchen länger zum Herunterladen und Dekomprimieren
- Hardware-LeistungWebAssembly-Berechnungen können auf preisgünstigen Geräten langsamer sein.
- Audio-Puffer-EinstellungencreateTransferer: Die Puffergröße von createTransferer (Standardwert 128*150) beeinflusst die Antwortgeschwindigkeit.
Optimierungsprogramm::
- Ladestrategie:
- Vorladen von Modellen mit Service Worker
- Auswahl kleiner Modelle (z. B. vosk-model-small-en-us-0.15) - Abstimmung der Parameter:
- Reduzierte Abtastrate auf 16000Hz (erfordert synchronisierte mod.conf Anpassung)
- Verringerung des Übertragungspuffers auf 64*150 - Optimierung der Laufzeit:
- Aktivieren Sie die WebGL-Beschleunigung (erfordert eine Änderung der mfcc.conf)
- Unnötige Ergebnis-Ereignis-Listener abschalten
Tests zeigen, dass die optimierte englische Erkennungslatenz von 1,2s auf etwa 400ms reduziert werden kann.
Diese Antwort stammt aus dem ArtikelVosk-Browser: Spracherkennungsprogramm in einem BrowserDie
































