コミュニティーのテストデータによると、KittenTTSは音声生成速度に優れています。例えば、M1 Macデバイスで26秒の音声を生成するのにかかる時間はわずか約19秒です。軽量アーキテクチャ(1500万パラメータ)とCPUに最適化された設計が、この利点をもたらしている。ユーザーはPythonコードで正確に生成時間を測定することができ、さらに速度を向上させるために短いテキストと簡単な句読点を推奨しています。モデルの重みがローカルにキャッシュされ、その後の生成のロード時間が短くなることは注目に値する。
この答えは記事から得たものである。KittenTTS: 軽量音声合成モデルについて