Planos de desenvolvimento publicados
De acordo com a documentação do projeto e entrevistas com desenvolvedores, o foco será nos próximos seis meses:
- extensão de idiomaSuporte a francês/japonês concluído no terceiro trimestre de 2024, mandarim chinês e coreano no quarto trimestre
- mecanismo de emoçõesControle de 8 parâmetros de emoção, como raiva, tristeza, etc. (a versão beta foi testada internamente)
- aceleração de hardwareOtimizações proprietárias para NVIDIA Tensor Core e Intel OpenVINO
Funções orientadas pela comunidade
As propostas de recursos que estão sendo discutidas na comunidade de código aberto incluem:
- Suporte a dialetosInglês: cantonês, japonês de Kansai e outras variações regionais
- clonagem de impressões vocaisPermitir que os usuários carreguem amostras de fala para extração de recursos
- colaboração na nuvemEsquemas de inferência híbrida para modelos locais e modelos grandes na nuvem
construção ecológica
Há planos de criar um Voice Style Marketplace (Voice Marketplace) para permitir que os desenvolvedores:
- Compartilhe modelos de som com treinamento personalizado
- Comercialização da venda de pacotes de locução profissional
- Amplie os recursos de processamento de som com um sistema de plug-in
Essa resposta foi extraída do artigoKokoro-ONNX: ferramenta eficiente de conversão de texto em fala com suporte a vários idiomas e várias vozesO





























