Programm zur Optimierung der Natürlichkeit der Sprache
Um die Qualität der Sprachausgabe zu verbessern, können die folgenden Dimensionen optimiert werden:
- Auswahl der ZeichenDas Englische empfiehlt die Verwendung des Tara-Zeichens, das am natürlichsten gesprochen wird; das Chinesische muss die Leistung verschiedener Zeichen testen.
- Anwendung des EtikettsAusdruck wird durch Emotions-Tags wie , usw. verstärkt. Es wird empfohlen, alle 20-30 Zeichen ein Tag einzufügen.
- Feinabstimmung des ModellsVorbereitung von 300 qualitativ hochwertigen Proben für die Feinabstimmung, wobei der Schwerpunkt auf den metrischen Merkmalen der Zielsprache liegt.
- NachbearbeitungVerwenden Sie eine Software zur Audiobearbeitung, um Parameter wie die Sprechgeschwindigkeit (±15%) und die Tonhöhe (±3 Halbtöne) des erzeugten Tons anzupassen.
Vorschläge: 1) Testen Sie zunächst mit dem Basismodell 2) Fügen Sie nach und nach Gefühlsbezeichnungen hinzu 3) Ziehen Sie am Ende eine Feinabstimmung des Modells in Betracht. Beachten Sie, dass bei mehrsprachigen Modellen das offizielle Dokument zur Anpassung der Parameter herangezogen werden muss.
Diese Antwort stammt aus dem ArtikelOrpheus-TTS: Ein Text-to-Speech-Werkzeug zur Erzeugung natürlicher chinesischer SpracheDie
































