Tipos de serviços de voz compatíveis
- modelo de código abertoZyphra/Zonos-v0.1-hybrid (requer recursos locais de GPU)
- APIs de negócios:: Serviços compatíveis com OpenAI (kokoros.transformrs.org)
- Plataformas de terceirosDeepInfra, etc. (requer chave de API)
Método de configuração
- Configuração das teclas:
export DEEPINFRA_KEY="你的密钥" - Designação de serviço:
- Comando Base:
--provider=openai-compatible(kokoros.transformrs.org) - Seleção de modelos:
--model=tts-1 - Parâmetros de tom:
--voice=bm_lewis
- Comando Base:
- saída de áudioPode ser especificado
--audio-format=wavformato iso
Observe as diferenças nos estilos de voz e nos custos dos diferentes serviços e recomende testar amostras antes da geração de lotes.
Essa resposta foi extraída do artigoTRV: Geração rápida de vídeos de apresentação a partir de slides/PPTs e notas explicativas》































