核心可调参数体系
Kokoro WebGPU提供多维度的语音合成控制能力:
1. 模型参数配置
- Präzise Kontrolle:支持fp32/fp16/q8/q4等不同量化级别
- 计算后端:可选webgpu/wasm/cpu三种运行环境
2. 语音特征定制
- Auswahl des Tons:内置af_heart等多样化声音模板
- 语速调节:通过speed参数实现0.5-2.0倍速调整
- Rhythmische Kontrolle:split_pattern可定义文本分段规则
3. 输出控制
支持24kHz采样率WAV格式输出,兼容所有主流音频播放设备。在Python环境中还可通过IPython.display实现Jupyter内嵌播放。
Empfehlungen zur Parameteroptimierung
webgpu后端建议使用fp32精度以获得最佳合成质量,而移动端可考虑q8量化平衡性能与效果
Diese Antwort stammt aus dem ArtikelKokoro WebGPU: Ein Text-to-Speech-Dienst für den Offline-Betrieb in BrowsernDie