Aqui está um exemplo completo em Python que mostra como gerar e salvar um arquivo de voz com o KittenTTS:
from kittentts import KittenTTS
import soundfile as sf
# 初始化模型(可选voice参数选择语音)
tts = KittenTTS(voice='female_soft')
# 输入待转换文本
text = "这是一个演示示例,展示KittenTTS的轻量级语音合成能力。"
# 生成语音数据
audio, sample_rate = tts.generate(text)
# 保存为WAV文件
sf.write("demo_output.wav", audio, sample_rate)
print("语音文件已生成")
Observação importante: é necessário fazer a pré-instalação soundfile
A biblioteca processa arquivos de áudio; a primeira execução baixa cerca de 25 MB de pesos de modelo; o tempo de geração depende do tamanho do texto e do desempenho do dispositivo.
Essa resposta foi extraída do artigoKittenTTS: um modelo leve de conversão de texto em falaO