Eine Lösung für das Problem der Latenzzeit von Sprache zu Text in Echtzeit
Um einen nativen Sprache-zu-Text-Effekt mit niedriger Latenz zu erzielen, können Sie von folgenden Aspekten ausgehen:
- Hardware-OptimierungPriorität haben GPU-Geräte, die CUDA oder MPS unterstützen und über ≥ 8 GB Videospeicher verfügen. Wenn Sie eine NVIDIA-Grafikkarte verwenden, stellen Sie sicher, dass Sie das neueste CUDA-Toolkit installiert haben. cpu-Benutzer können versuchen, das Modell zu quantisieren (z. B. whisper-small-int8), um die Belastung zu verringern.
- Parameter Konfiguration: Ändern Sie die webRTC-Parameter in main.py:
- audio_chunk_duration=0.3 (verkürzt die Dauer von Audioblöcken)
- Anpassen von speech_pad_ms=200 (Stummschaltzeit reduzieren)
- batch_size=1 setzen (Stapelverarbeitung deaktivieren)
- Auswahl des ModellsAuswahl der Modelle auf der Grundlage der Geräteleistung:
- Hochleistungsgeräte: whisper-large-v3-turbo
- Allgemeine Ausstattung: Flüstersockel
- Low Profile Gerät: whisper-tiny-int8
- Optimierung der Vorverarbeitung: Stellen Sie die Audio-Samplerate (16000Hz empfohlen) und die Anzahl der Kanäle (Mono) über den ffmpeg-Parameter ein, zum Beispiel:
ffmpeg -ar 16000 -ac 1
Schließlich wird empfohlen, in der Projekt-.env-Datei dieUSE_CACHE=false
Wenn Sie die Zwischenspeicherung von Ergebnissen deaktivieren, verringert sich die Latenzzeit um weitere 0,2-0,3 Sekunden.
Diese Antwort stammt aus dem ArtikelOpen-Source-Tool für Sprache in Text in EchtzeitDie