Hier ist ein komplettes Python-Beispiel, das zeigt, wie man mit KittenTTS eine Sprachdatei erzeugt und speichert:
from kittentts import KittenTTS
import soundfile as sf
# 初始化模型(可选voice参数选择语音)
tts = KittenTTS(voice='female_soft')
# 输入待转换文本
text = "这是一个演示示例,展示KittenTTS的轻量级语音合成能力。"
# 生成语音数据
audio, sample_rate = tts.generate(text)
# 保存为WAV文件
sf.write("demo_output.wav", audio, sample_rate)
print("语音文件已生成")
Wichtiger Hinweis: Vorinstallation erforderlich soundfile
Die Bibliothek verarbeitet Audiodateien; beim ersten Durchlauf werden etwa 25 MB an Modellgewichten heruntergeladen; die Generierungszeit hängt von der Textlänge und der Geräteleistung ab.
Diese Antwort stammt aus dem ArtikelKittenTTS: Ein leichtgewichtiges Text-to-Speech-ModellDie