Um eine exakte Transkription in mehreren Sprachen zu erreichen, müssen Sie es in drei Schritten konfigurieren: Setzen Sie zunächst die .env-Datei im Stammverzeichnis des Projekts aufPREFERRED_LANGUAGE=zh(中文示例)
Erzwingen Sie die Angabe der Sprache, um mögliche Verzerrungen bei der automatischen Erkennung zu vermeiden. Zweitens: Wählen Sie im Bedienfeld das Modell LARGE (1,5 GB), das die höchste Erkennungsgenauigkeit für die 58 unterstützten Sprachen (einschließlich Chinesisch/Englisch/Japanisch usw.) aufweist. Drittens: Behalten Sie bei gemischtsprachigen Szenarien den automatischen Spracherkennungsmodus bei, stellen Sie aber sicher, dass die Aufnahmen klar sind - es wird empfohlen, ein externes Mikrofon in einer ruhigen Umgebung zu verwenden und die Sprechgeschwindigkeit bei 120-150 Wörtern pro Minute zu halten. Wenn der Cloud-Verarbeitungsmodus verfügbar ist, ist der Whisper-Dienst der OpenAI-API widerstandsfähiger gegenüber schlechter Audioqualität.
Diese Antwort stammt aus dem ArtikelOpenWispr: Datenschutzgerechte Speech-to-Text Desktop-AnwendungDie