Programa híbrido de reconhecimento multilíngue
O Whisper Input alcança o reconhecimento multilíngue híbrido por meio das seguintes tecnologias:
- Detecção dinâmica de idioma: o sistema determinará automaticamente o idioma principal com base nas características espectrais do áudio (suporta 96 idiomas)
- Tecnologia de decodificação híbrida: invoca automaticamente a modelagem entre idiomas quando palavras estrangeiras são detectadas em uma declaração (precisa ser definida em .env)
MULTILINGUAL=true) - Otimização da terminologia: adicione um vocabulário personalizado (na forma de uma matriz JSON) ao config.json para melhorar a taxa de reconhecimento da terminologia específica do domínio
Exemplo prático
Veja uma cena mista de chinês e inglês, por exemplo:
- Modifique o arquivo .env:
PRIMARY_LANG=zh(Defina o idioma principal como chinês) - Adição de dicionários suplementares: criar no diretório do projeto
custom_words.jsonEscreva termos comuns em inglês - Ativar modo de mixagem: Configurações
HYBRID_TRANSLATION=trueTroca de idioma em tempo real - Efeito do teste: Leia em voz alta trechos em chinês que contenham termos profissionais em inglês, e o sistema manterá automaticamente os termos como estão na saída original.
Recomendações de otimização de desempenho
- Cenários sensíveis à latência da rede: o modelo SenseVoiceSmall da SiliconFlow é recomendado (melhoria da taxa de resposta de 40%)
- Processamento de áudio longo: entradas segmentadas (≤30 segundos recomendados para uma única sessão) evitam a distração do modelo
Essa resposta foi extraída do artigoWhisper Input: um serviço de transcrição de voz para texto gratuito e de alta velocidade que usa o GroqO































