Requisitos do cenário
Os assistentes de voz modernos precisam suportar memórias de tons de vários usuários e respostas personalizadas, e as soluções tradicionais precisam treinar modelos separados para cada usuário.
Realização técnica
- Clonagem rápida de tonsGravação de uma voz de calibração de 3 segundos para ser chamada quando o usuário a utilizar pela primeira vez:
cosyvoice.add_zero_shot_spk(user_id, prompt_audio)
- Gerenciamento de vários tons: Uso
spk_embeddings.npy
Características do tom de usuário do armazenamento de arquivos - Ajuste emocional dinâmicoInserção automática com base no conteúdo do diálogo
[happy]
e[whisper]
etag (computação)
integração de sistemas
1. adotar a implementação com serviços gRPC, suportar mais de 100 solicitações simultâneas
2) Geração de rótulos de sentimento com reconhecimento de contexto com mecanismo NLU
3. adoçãoCosyVoice-300M-SFT
Otimização de modelos para geração de discursos curtos
valor comercial
A solução resultou em um aumento de 401 TP3T na satisfação do usuário e um aumento de 251 TP3T na retenção de usuários para assistentes de voz.
Essa resposta foi extraída do artigoCosyVoice: ferramenta de geração e clonagem multilíngue de código aberto AliO