São necessárias três etapas principais para conseguir uma mudança suave de idioma/sotaque:
- Configuração dos parâmetros de idioma::
Ao chamar o Text2Speech, passe olang
parâmetros (por exemplolang="en"
), e comspk_embed_dim
Definição das características do pronunciador - Texto pré-processado::
Use a ferramenta langid para detectar o idioma do texto e garantir que ele corresponda aos parâmetros do modelo. Código de amostra:import langid
lang = langid.classify(text)[0]
text2speech(text, lang=lang) - Otimização do pós-processamento::
aprovar (um projeto de lei ou inspeção etc.)config.yaml
adaptarduration_predictor
responder cantandopitch_predictor
Parâmetro, recomenda-se a configuração chinesapitch_scale: 1.2
Configurações em inglêsenergy_scale: 0.9
As experiências mostram que o método pode atingir uma pontuação MOS de 4,2/5,0 em cenários de troca bilíngue inglês-francês.
Essa resposta foi extraída do artigoOpusLM_7B_Anneal: um modelo unificado eficiente para reconhecimento e síntese de falaO