騒音環境識別の精度を向上させるには、段階的なアプローチが必要である:
- 前処理段階::
1.ビルトインの使用SpeechEnhancement
モジュールenhanced = speech_enh(noisy_audio)["wav"]
2.VADアルゴリズムとWebRTCを組み合わせ、無音部分を取り除く - 識別パラメータの調整::
修正decode_default.yaml
真ん中だ:
1.beam_size: 20
(検索幅の拡大)
2.penalty: 0.6
(重複罰則の軽減) - 後処理補正::
二次補正やインストールコマンドのための統合言語モデル(KenLMなど):pip install kenlm
この方法は、80dBのホワイトノイズ環境において、WERを35%から12%に低減することが測定された。
この答えは記事から得たものである。OpusLM_7B_Anneal:音声認識と合成のための効率的な統一モデルについて