Posição atual:fig. início " Respostas da IA

Como faço para gerar uma voz básica usando o csm-mlx?

2025-08-29

1.4 K

Link diretoVisualização móvel

Para gerar uma voz de base usando csm-mlx, proceda da seguinte forma:

Inicialização do modeloImportar a classe CSM e os módulos relacionados em um script Python para inicializar o modelo CSM
peso da cargaDownload e carregamento de pesos de modelos pré-treinados do Hugging Face (csm-1b-mlx)
Parâmetros de configuração::
- Defina o conteúdo do texto a ser convertido (text="your text")
- Selecione o caractere de voz (alto-falante=0)
- Definir a duração máxima do áudio (max_audio_length_ms=10000)
- Configure os parâmetros de amostragem (por exemplo, temperatura temp=0,5)
Gerar áudioChamada da função generate para gerar áudio
Salvar saídaSalvar áudio como um arquivo WAV usando a biblioteca audiofile

O script de exemplo completo contém as principais etapas: inicialização do modelo, carregamento de pesos, configuração de parâmetros, geração de áudio e salvamento de arquivos. Após a execução do script, será gerado um arquivo output.wav no diretório atual, que pode ser reproduzido diretamente. Observe que a qualidade do áudio é afetada pela taxa de amostragem (padrão 22050Hz) e pelos parâmetros de temperatura, que podem ser ajustados de acordo com suas necessidades.

Essa resposta foi extraída do artigocsm-mlx: modelo de geração de fala csm para dispositivos AppleO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " Como faço para gerar uma voz básica usando o csm-mlx?