KittenTTSを使用する際の注意: 1) Python 3.6+の実行環境が必要、2) 初回使用時には、約25MBのモデルウェイトをダウンロードするためにインターネット接続が必要(その後のオフライン実行は可能)、3) 現在のところ、英語音声生成の最適化に主眼が置かれており、他の言語へのサポートは限定的、4) 音声スタイルの調整はプリセットから行う必要がある。voice
また、5) 発話のリズムに影響を与える句読点はサポートされているが、きめ細かなイントネーショ ン制御は提供されていない。これらの制約は、特定の要件シナリオに基づいて評価することが推奨される。
この答えは記事から得たものである。KittenTTS: 軽量音声合成モデルについて