Die Effizienz der Stromerzeugung kann durch folgende Maßnahmen erheblich verbessert werden.
- Textsteuerung:: Verringern Sie die Länge des Textes und vermeiden Sie, wo immer möglich, komplexe Interpunktion
- Umgebung Konfiguration:: Verwendet eine leistungsstärkere CPU (Tests zeigen, dass der M1-Chip nur 19 Sekunden benötigt, um 26 Sekunden Audio zu erzeugen).
- Optimierung der VorverarbeitungModell vorladen und Gewichte zwischenspeichern (nach dem ersten Durchlauf lokal gespeichert)
- Sprachauswahl:: Auswahl von einfacheren voreingestellten Sprachstilen
Tests haben gezeigt, dass die Erstellung kurzer 10-Wort-Texte etwa dreimal schneller ist als die langer 50-Wort-Texte in der gleichen Hardwareumgebung. Die Entwickler können auch die time.time()
Führen Sie Geschwindigkeitstests durch, um Leistungsengpässe zu ermitteln.
Diese Antwort stammt aus dem ArtikelKittenTTS: Ein leichtgewichtiges Text-to-Speech-ModellDie