Análise de gargalos de desempenho
Os sistemas TTS são propensos à latência em dispositivos com recursos limitados de CPU. O Kokoro-ONNX consegue otimizar o desempenho por meio do seguinte design:
Medidas específicas de otimização
- Modelagem e quantificaçãoUso da versão inteira quantificada de 8 bits (80 MB) reduz o espaço de memória em 75% em comparação com o modelo de ponto flutuante (300 MB)
- Desativação de loteModificação
hello.pyacertou em cheiostreaming=TrueParâmetro Enable Streaming (Ativar fluxo) - Controle de roscaExemplo de como o ONNX Runtime pode ser usado por meio de seu
session_optionsLimitar o número de threads ao número de núcleos físicos da CPU - Otimização de cacheUso do mecanismo local de cache de wav para texto duplicado para reduzir a pressão computacional em tempo real
habilidade avançada
Para dispositivos ARM, como o Raspberry Pi, você pode 1) compilar uma versão otimizada para ARM do ONNX Runtime 2) usar oonnxruntime.transformersRealizar fusão de camadas 3) HabilitarORT_ENABLE_EXTENDEDOtimização do conjunto de instruções
Essa resposta foi extraída do artigoKokoro-ONNX: ferramenta eficiente de conversão de texto em fala com suporte a vários idiomas e várias vozesO































