如何使用 csm-mlx 生成基础语音？

2025-08-29

1.2 K

使用 csm-mlx 生成基础语音的步骤如下：

モデルの初期化：在 Python 脚本中导入 CSM 类和相关模块，初始化 CSM 模型
加载权重：从 Hugging Face 下载并加载预训练模型权重(csm-1b-mlx)
設定パラメータ::
- 设置要转换的文本内容(text=”你的文本”)
- 选择语音角色(speaker=0)
- 定义最大音频长度(max_audio_length_ms=10000)
- 配置采样参数(如温度 temp=0.5)
オーディオの生成：调用 generate 函数生成音频
出力保存：使用 audiofile 库将音频保存为 WAV 文件

完整的示例脚本包含：模型初始化、权重加载、参数设置、音频生成和文件保存等关键步骤。运行脚本后，会在当前目录生成 output.wav 文件，可直接播放。需要注意的是，音频质量会受采样率(默认 22050Hz)和温度参数的影响，可根据需求调整。

この答えは記事から得たものである。csm-mlx: Appleデバイス用csm音声生成モデルについて

クイック照会ステーションAIツール