Como resolver o problema de reconhecimento de entrada mista em vários idiomas durante a transcrição de fala?

2025-09-05

1.7 K

Programa híbrido de reconhecimento multilíngue

O Whisper Input alcança o reconhecimento multilíngue híbrido por meio das seguintes tecnologias:

Detecção dinâmica de idioma: o sistema determinará automaticamente o idioma principal com base nas características espectrais do áudio (suporta 96 idiomas)
Tecnologia de decodificação híbrida: invoca automaticamente a modelagem entre idiomas quando palavras estrangeiras são detectadas em uma declaração (precisa ser definida em .env)MULTILINGUAL=true)
Otimização da terminologia: adicione um vocabulário personalizado (na forma de uma matriz JSON) ao config.json para melhorar a taxa de reconhecimento da terminologia específica do domínio

Veja uma cena mista de chinês e inglês, por exemplo:

Modifique o arquivo .env:PRIMARY_LANG=zh(Defina o idioma principal como chinês)
Adição de dicionários suplementares: criar no diretório do projetocustom_words.jsonEscreva termos comuns em inglês
Ativar modo de mixagem: ConfiguraçõesHYBRID_TRANSLATION=trueTroca de idioma em tempo real
Efeito do teste: Leia em voz alta trechos em chinês que contenham termos profissionais em inglês, e o sistema manterá automaticamente os termos como estão na saída original.

Cenários sensíveis à latência da rede: o modelo SenseVoiceSmall da SiliconFlow é recomendado (melhoria da taxa de resposta de 40%)
Processamento de áudio longo: entradas segmentadas (≤30 segundos recomendados para uma única sessão) evitam a distração do modelo