Schlüsseltechniken zur Verbesserung der Ähnlichkeit von Sprachklonen
Die folgenden Maßnahmen können ergriffen werden, um eine hohe Qualität beim Klonen von Sprache zu erreichen:
- Grundsätze der Stichprobenauswahl:
- Verwenden Sie Ein-Personen-Audio mit klarer Aussprache (vermeiden Sie Dialoge mit mehreren Personen)
- Die optimale Dauer beträgt 5-10 Sekunden (einschließlich der vollständigen Ausspracheeinheit)
- Bevorzugen Sie Proben mit einem neutralen Ton (vermeiden Sie übertriebene Emotionen)
- Schema der Parameteroptimierung:
- angemessen erhöhen
--t_wParameterwerte (empfohlen 3,0-4,0) - Gleichzeitig verringert sie
--p_wWert (Bereich 0,5-1,2)
- angemessen erhöhen
- Technische Unterstützung:
- Verbessern Sie die Klangqualität mit dem integrierten WaveVAE-Vocoder
- Achten Sie darauf, dass Sie die offizielle Datei mit vor-extrahierten Latenten verwenden.
Wenn das Ergebnis nicht zufriedenstellend ist, können Sie versuchen, das beste Ergebnis nach mehrmaligem Generieren auszuwählen oder den langen Text in kurze Sätze aufzuteilen und diese separat zu synthetisieren.
Diese Antwort stammt aus dem ArtikelMegaTTS3: Ein leichtgewichtiges Modell zur Synthese von chinesischer und englischer SpracheDie































