Para gerar uma voz de base usando csm-mlx, proceda da seguinte forma:
- Inicialização do modeloImportar a classe CSM e os módulos relacionados em um script Python para inicializar o modelo CSM
- peso da cargaDownload e carregamento de pesos de modelos pré-treinados do Hugging Face (csm-1b-mlx)
- Parâmetros de configuração::
- Defina o conteúdo do texto a ser convertido (text="your text")
- Selecione o caractere de voz (alto-falante=0)
- Definir a duração máxima do áudio (max_audio_length_ms=10000)
- Configure os parâmetros de amostragem (por exemplo, temperatura temp=0,5)
- Gerar áudioChamada da função generate para gerar áudio
- Salvar saídaSalvar áudio como um arquivo WAV usando a biblioteca audiofile
O script de exemplo completo contém as principais etapas: inicialização do modelo, carregamento de pesos, configuração de parâmetros, geração de áudio e salvamento de arquivos. Após a execução do script, será gerado um arquivo output.wav no diretório atual, que pode ser reproduzido diretamente. Observe que a qualidade do áudio é afetada pela taxa de amostragem (padrão 22050Hz) e pelos parâmetros de temperatura, que podem ser ajustados de acordo com suas necessidades.
Essa resposta foi extraída do artigocsm-mlx: modelo de geração de fala csm para dispositivos AppleO































