以下是一个完整的 Python 示例,展示如何用 KittenTTS 生成并保存语音文件:
from kittentts import KittenTTS
import soundfile as sf
# 初始化模型(可选voice参数选择语音)
tts = KittenTTS(voice='female_soft')
# 输入待转换文本
text = "这是一个演示示例,展示KittenTTS的轻量级语音合成能力。"
# 生成语音数据
audio, sample_rate = tts.generate(text)
# 保存为WAV文件
sf.write("demo_output.wav", audio, sample_rate)
print("语音文件已生成")
关键点说明:需提前安装 soundfile
库处理音频文件;首次运行会下载约 25MB 的模型权重;生成时间与文本长度和设备性能相关。
本答案来源于文章《KittenTTS:轻量级文本转语音模型》