Programm zur Optimierung des Klonens von Stimmen
Um eine Klangähnlichkeit über 95% zu erreichen, müssen drei Dimensionen optimiert werden:
- ProbenqualitätWählen Sie 5-10 Sekunden WeChat-Sprachaufnahme ohne Hintergrundgeräusche, und wir empfehlen, die systemeigene Aufnahmefunktion zu verwenden, um sie zu löschen. Vermeiden Sie Folgendes: 1) Hintergrundmusik 2) Dialoge mit mehreren Personen 3) aktuelle Geräusche
- Parametrisierung: Höher in xcodec_config.json
hop_lengthauf 256 setzen, während dieremove_silence=TrueVerbesserte Merkmalsextraktion - DatenerweiterungVariable Geschwindigkeit bei nicht variabler Tonhöhe mit dem sox audio tool (Befehl:
sox input.wav output.wav tempo 0.9), die mehrere Versionen von Trainingsproben erzeugen
Zu den fortgeschrittenen Techniken gehören 1) die Kennzeichnung von Reimsymbolen im Text, 2) die Hinzufügung eines 10ms führenden Stummschalters und 3) die Verwendung von NSF-HiFiGAN als Back-End-Vocoder. Die Tests können mit der mel-Spektralähnlichkeitsmetrik (mel-CDTW) verglichen werden
Diese Antwort stammt aus dem ArtikelWeClone: Ausbildung von digitalen Doppelgängern mit WeChat-Chat-Protokollen und StimmenDie































