Vollständiger Arbeitsablauf
Schritt 1: Vorbereitung der Umwelt
- Wählen Sie PyTorch/MLX (Laufzeit) oder Rust (Produktionsserver)
- Installieren Sie die entsprechende Version des Modellpakets (moshi-mlx oder moshi-server)
- Herunterladen von
stt-2.6b-enHochpräzise englische Modelle
Schritt 2: Konfiguration des Audioeingangs
- Mikrofoneingang in Echtzeit: hinzufügen
--micParameter - Dateieingabe: Geben Sie den Pfad der WAV/MP3-Datei an.
- Netzwerk-Streaming-Eingang: Übertragung von Audiodatenpaketen über WebSocket
Wichtige Parametereinstellungen
| Parameter | Anweisungen | empfohlener Wert |
|---|---|---|
| -temp | Entnahmetemperatur | 0 (deterministische Ausgabe) |
| -vad-schwelle | Sprachaktivitätsschwelle | 0,3 (nach oben korrigiert für laute Umgebungen) |
| -max-Verzögerung | Maximal zulässige Verzögerung | 500 (Millisekunden) |
passieren (eine Rechnung oder Inspektion etc.)--output-jsonEs können strukturierte Ergebnisse erzielt werden, die Folgendes enthalten:
- Transkript: vollständige Transkription des Textes
- word_timings: Array von Zeitstempeln auf Wortebene
- Vertrauen: Konfidenzniveau
Empfehlungen für die Nachbearbeitung der Ausgabe
Erzeugung von Untertiteldateien:
- Zeitstempel in das SRT/VTT-Format konvertieren
- ausnutzen
ffmpegEingebettetes Video - Passen Sie die Länge jeder Untertitelzeile an (3-5 Sekunden empfohlen)
Optimierung der Anzeige in Echtzeit:
- Push zum Frontend über WebSocket
- Hinzufügen eines Puffers von 0,2 Sekunden, um Jitter zu vermeiden
- Verbessern Sie die Lesbarkeit, indem Sie das Wort, das gerade vorgelesen wird, hervorheben.
Diese Antwort stammt aus dem ArtikelKyutai: Werkzeug zur Umwandlung von Sprache in Text in EchtzeitDie































