以下は、KittenTTSで音声ファイルを生成して保存する方法を示す、完全なPythonの例です:
from kittentts import KittenTTS
import soundfile as sf
# 初始化模型(可选voice参数选择语音)
tts = KittenTTS(voice='female_soft')
# 输入待转换文本
text = "这是一个演示示例,展示KittenTTS的轻量级语音合成能力。"
# 生成语音数据
audio, sample_rate = tts.generate(text)
# 保存为WAV文件
sf.write("demo_output.wav", audio, sample_rate)
print("语音文件已生成")
キーポイント:事前設置が必要 soundfile
ライブラリーは音声ファイルを処理する。最初の実行では、約25MBのモデルウェイトをダウンロードする。生成時間はテキストの長さとデバイスの性能に依存する。
この答えは記事から得たものである。KittenTTS: 軽量音声合成モデルについて