Ao usar o Whisper App para cenários multilíngues, a precisão pode ser aprimorada com as seguintes opções:
- Configuração frontal::
- Modifique o arquivo .env para adicionar `LANGUAGE_PREFERENCE=zh-CN` (em chinês, por exemplo) ao implantar o projeto.
- Instale o FFmpeg para lidar com a redução de ruído de áudio: `brew install ffmpeg` (Mac)/`choco install ffmpeg` (Windows)
- técnica de registro::
- Mantenha uma distância constante de 15 a 30 cm para evitar a interferência do ruído da respiração
- Uso de dispositivos de acesso com microfone de lapela em ambientes ruidosos
- Cenas de diálogo no modo "transcrição em tempo real"
- Pós-calibração::
- Ajuste de parâmetros usando o modelo Llama: `temperatura=0,7` equilibrando criatividade e precisão
- O arquivo de dicionário de sinônimos personalizado `custom_terms.txt` pode ser adicionado ao diretório do projeto para terminologia.
- Verificação secundária com registro de data e hora manual de segmentos importantes
Os testes mostram que a precisão da transcrição em chinês pode ser melhorada de 82% para 93% depois de usar o método acima. Se você precisar processar dialetos, é recomendável ativar o modelo Whisper-large-v3 no console do Together.ai.
Essa resposta foi extraída do artigoAplicativo Whisper: organizador gratuito de notas de voz para texto e IAO

































