Die Geschwindigkeit der Spracherzeugung kann auf Geräten ohne NVIDIA-Grafikkarte auf folgende Weise optimiert werden:
- Leichte Modelle bevorzugenDas Kitten-TTS-Kernmodell ist nur 25 MB groß und die Standardkonfiguration ist für die CPU optimiert.
- Angemessene Einstellung der Chunking-ParameterBei der Verarbeitung von langem Text wird empfohlen, die Stückgröße auf 300-500 Zeichen einzustellen, um den Druck der Einzelverarbeitung zu verringern.
- Echtzeit-Wellenformanzeige ausschalten: In config.yaml eingestellt
ui.show_waveform: false
Reduziert die CPU-Belastung - Einsatz mit Docker: Verwendung
docker-compose-cpu.yml
Vordefinierte optimierte Konfigurationen, einschließlich Speicherverwaltungsparameter - Aufrüstung der HardwarebasisEs wird empfohlen, eine CPU zu verwenden, die den AVX-Befehlssatz unterstützt; die Verarbeitungsgeschwindigkeit kann um etwa 40% erhöht werden.
Mit diesen Anpassungen kann selbst auf eingebetteten Geräten wie dem Raspberry Pi eine stabile Generierungsrate von etwa 500 Wörtern pro Minute erreicht werden.
Diese Antwort stammt aus dem ArtikelKitten-TTS-Server: Ein selbstentwickelbarer, leichtgewichtiger Text-to-Speech-DienstDie