シームレスな長文読み上げを実現するには、以下の3つの方法で設定する必要がある:
- インテリジェントな文区切りを有効にするウェブ・インターフェース
Split text into chunksオプションにチェックが入っている - ストップパラメーターの調整config.yamlで設定
silence_duration: 0.3(秒) 自然な間を加える - チャンキング戦略の最適化句読点による自動チャンキングは、以下の方法と併用することをお勧めします。
max_chars: 450パラメータは単一セグメントの長さを制限する
プロのオーディオブック制作には問題ない:
- テキストソースへの手動挿入
|チャンキング位置を指定する記号 - 利用する
<break/>特定のポーズの長さを制御するSSMLタグ
処理後の隣り合うクリップの間隔は200〜400ミリ秒に制御され、放送品質の滑らかさを実現する。
この答えは記事から得たものである。Kitten-TTS-Server: セルフデプロイ可能な軽量音声合成サービスについて































