O aprimoramento da precisão da identificação do ambiente sonoro requer uma abordagem em fases:
- estágio de pré-tratamento::
1. uso de ferramentas embutidasSpeechEnhancement
Módulo:enhanced = speech_enh(noisy_audio)["wav"]
2. algoritmo VAD em conjunto com WebRTC para eliminar segmentos silenciosos - Ajuste dos parâmetros de identificação::
modificaçõesdecode_default.yaml
Médio:
1.beam_size: 20
(Aumento da largura da pesquisa)
2.penalty: 0.6
(Redução das penalidades de duplicação) - Correção pós-processamento::
Modelos de linguagem integrados (por exemplo, KenLM) para correções secundárias e comandos de instalação:pip install kenlm
O método foi medido para reduzir o WER de 351 TP3T para 121 TP3T em um ambiente de ruído branco de 80 dB.
Essa resposta foi extraída do artigoOpusLM_7B_Anneal: um modelo unificado eficiente para reconhecimento e síntese de falaO