KittenTTSは、高品質なプリセット音声スタイルを幅広くサポートするように設計されており、ユーザーはシンプルな voice
パラメータは、クリアな男性の声 (male_clear
)またはソフトガール(female_soft
など)。これらのプリセット音声は、さまざまなアプリケーションシナリオのニーズを満たすように最適化されています。現在のバージョンは主に英語の音声生成用ですが、開発者はテキストの句読点(カンマや感嘆符など)を使って間接的に音声のリズムやポーズ効果を調整し、音声の自然さを高めることができます。
この答えは記事から得たものである。KittenTTS: 軽量音声合成モデルについて