Para obter uma transcrição precisa em vários idiomas, é necessário configurá-lo em três etapas: primeiro, defina o arquivo .env no diretório raiz do projeto comoPREFERRED_LANGUAGE=zh(中文示例)
Force a especificação do idioma para evitar possíveis distorções na detecção automática. Segundo, selecione o modelo LARGE (1,5 GB) no painel de controle, que tem a maior precisão de reconhecimento para os 58 idiomas suportados (incluindo chinês/inglês/japonês, etc.). Terceiro, para cenários de idiomas mistos, mantenha o modo de detecção automática de idioma, mas certifique-se de que as gravações sejam claras - recomenda-se usar um microfone externo em um ambiente silencioso e manter a taxa de fala em 120-150 palavras por minuto. Se o modo de processamento em nuvem estiver disponível, o serviço Whisper da API OpenAI é mais resistente a áudio de baixa qualidade.
Essa resposta foi extraída do artigoOpenWispr: aplicativo de desktop de fala para texto que prioriza a privacidadeO