O recurso Voice Replication permite que os usuários criem modelos de voz de IA personalizados com o seguinte mecanismo de implementação e requisitos operacionais:
Princípios técnicos
Com base na tecnologia de síntese de fala de aprendizagem profunda da KDDI, analisando as amostras de voz fornecidas pelos usuários e extraindo os recursos de impressão de voz (por exemplo, timbre/tom/hábitos de pronúncia etc.), uma voz personalizada com uma similaridade de 90% ou mais é finalmente clonada.
preparação de materiais
- Texto gravadoTexto de treinamento: É necessário ler em voz alta um texto de treinamento (geralmente com 100 a 200 frases) especificado pela plataforma.
- qualidade de áudioRecomenda-se gravar em um ambiente silencioso usando um microfone profissional com uma taxa de amostragem de ≥16kHz
- Cobertura de conteúdoO texto deve conter palavras comumente usadas, palavras polifônicas e combinações específicas de sons.
cenário do aplicativo
A voz clonada pode ser usada para: leitura de audiolivros, dublagem personalizada de vídeos, logotipos de voz de marcas exclusivas e muito mais. Esse recurso é especialmente adequado para blogueiros de conhecimento, profissionais de educação e treinamento e outros grupos de usuários que precisam manter a consistência da voz.
Deve-se observar que, por motivos éticos, a plataforma exige que a clonagem de voz seja autorizada pela própria pessoa e que ela não possa copiar a impressão de voz de outra pessoa.
Essa resposta foi extraída do artigoCyberSmart: conversão de texto em fala e vídeo humano digitalO