Die Verbesserung der Sprachqualität erfordert sowohl Eingabedaten als auch die Konfiguration des Modells:
- Eingangs-AudioqualitätVergewissern Sie sich, dass das Audiobeispiel für das Klonen der Stimme einen DNSMOS-Wert von ≥ 2,8 hat, und es wird empfohlen, es mit professionellen Aufnahmegeräten aufzunehmen, um Umgebungsgeräusche zu vermeiden.
- Spezifikationen für die TextbeschriftungDer Text des Dialogs muss deutlich mit dem Sprecher beschriftet sein (z. B.
Speaker1:), sollten beschreibende Bezeichnungen für Beugungen hinzugefügt werden, wie z. B.[笑声]vielleicht[停顿] - Parametrisierung: in
config.yamlMittel- und Hochtonbereichprosody_scale(metrischer Skalierungsfaktor) undnoise_scale(Rauschzufälligkeit), empfohlener Bereich 0,8-1,2 - Feinabstimmung des ModellsLoRA-Feinabstimmung unter Verwendung domänenspezifischer Daten (z. B. medizinische Gespräche, Aufzeichnungen aus dem Kundendienst) kann die Leistung professioneller Szenarien erheblich verbessern
Diese Antwort stammt aus dem ArtikelMOSS-TTSD: Open-Source-Sprachgenerierungswerkzeug für zweisprachige DialogeDie































