Kitten-TTS-Serverは、オリジナルのKittenTTSモデルにいくつかの改良を加えています:
- ウェブUIインターフェーステキスト入力、音声選択、スピーチレート調整、リアルタイム波形プレビューをサポートする直感的なブラウザインターフェースを提供します。
- 長いテキストの処理インテリジェントな文章分割と音声スプライシング技術により、完全なオーディオブックを生成することができます。
- GPUアクセラレーション: onnxruntime-gpuとI/OバインディングによるNVIDIA CUDAアクセラレーションにより、生成速度が大幅に向上。
- APIサポート標準的な/ttsインターフェースとOpenAI互換の/v1/オーディオ/スピーチインターフェースを提供します。
- 展開の簡素化Dockerコンテナによるデプロイメントをサポートし、8つのプリセットボイス(男性4つ、女性4つ)を内蔵しています。
この答えは記事から得たものである。Kitten-TTS-Server: セルフデプロイ可能な軽量音声合成サービスについて