xiaozhi-esp32-serverの音声認識で言語が混在してしまう問題を解決するには？

2025-08-29

2.5 K

音声認識言語ミキシング問題の解決策

xiaozhi-esp32-serverに認識言語が混在している場合、主にモデル設定と音声入力の2つの次元で解決する必要がある：

モデルの完全性をチェックするmodels/SenseVoiceSmallディレクトリにmodel.ptファイルがあることを確認してください。もし見つからない場合は再ダウンロードする必要があります。正確なパスについては公式READMEガイドラインを参照してください。
言語優先設定の調整config.yamlのlanguage_priorityパラメーターを見つけ、使用頻度順に言語を並べ替える：
[zh、en、ja、ko、yue]。
音声入力環境の最適化::
- マイクをスピーカーから0.3～1メートル離してください。
- 50dB以上の環境騒音を避ける
- 指向性マイクの使用により干渉を低減
代替案::
- Aliyun音声認識インターフェースに切り替える（設定ファイルのspeech_recognitionモジュールを変更する必要があります。）
- モノリンガルロックモードを有効にする（config.yamlがlanguage_lockパラメータをサポートしている場合）

上記の解決策を組み合わせることで、認識精度を60-80%まで効果的に向上させることができます。基本的な認識能力を確認するために、標準的な発音フレーズ（標準語で「カーテンを開けて」など）を使用することをお勧めします。