Der Kitten-TTS-Server bietet mehrere Verbesserungen gegenüber dem ursprünglichen KittenTTS-Modell:
- Web UI-SchnittstelleBietet eine intuitive Browserschnittstelle, die Texteingabe, Sprachauswahl, Anpassung der Sprechgeschwindigkeit und Echtzeit-Wellenformvorschau unterstützt.
- LangtextverarbeitungVollständige Hörbücher können durch intelligente Satzumbrüche und Audio-Splicing-Technologie erzeugt werden.
- GPU-BeschleunigungNVIDIA CUDA-Beschleunigung mit onnxruntime-gpu und I/O-Bindungen zur deutlichen Verbesserung der Generierungsgeschwindigkeit
- API-UnterstützungBietet standardmäßige /tts-Schnittstellen und OpenAI-kompatible /v1/audio/speech-Schnittstellen.
- Vereinfachung des EinsatzesUnterstützt Docker-Container-Bereitstellungen, mit 8 eingebauten voreingestellten Stimmen (4 männliche und 4 weibliche), und die Konfiguration wird über eine einzige config.yaml-Datei verwaltet
Diese Antwort stammt aus dem ArtikelKitten-TTS-Server: Ein selbstentwickelbarer, leichtgewichtiger Text-to-Speech-DienstDie