多言語での正確な書き起こしを実現するには、3つのステップで設定する必要があります。まず、プロジェクトのルート・ディレクトリにある.envファイルをPREFERRED_LANGUAGE=zh(中文示例)
自動検出に偏りが生じる可能性を避けるため、言語を強制的に指定します。第二に、コントロールパネルでLARGEモデル(1.5GB)を選択します。これは、サポートされている58の言語(中国語/英語/日本語などを含む)に対する認識精度が最も高いモデルです。第三に、言語が混在するシナリオでは、自動言語検出モードを維持するが、録音がクリアであることを確認する - 静かな環境で外部マイクを使用し、スピーチレートを毎分120〜150ワードに保つことをお勧めします。クラウド処理モードが利用可能な場合は、OpenAI APIのWhisperサービスが低品質音声に強い。
この答えは記事から得たものである。OpenWispr: プライバシー第一の音声テキストデスクトップアプリケーションについて