Die Funktion zum Klonen von Stimmen in MegaTTS3 wird wie folgt verwendet:
Verfahren
- Bereiten Sie 5-10 Sekunden eines klaren Referenztons vor (es wird empfohlen, in einer ruhigen Umgebung aufzunehmen).
- Legen Sie die Audiodatei im Ordner assets/ ab.
- Führen Sie den Befehl aus:
CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/your_audio.wav' --input_text "要合成的文本" --output_dir ./gen - Holen Sie sich die Ergebnisdatei output.wav im Verzeichnis . /gen Verzeichnis, um die Ergebnisdatei output.wav zu erhalten
Wichtige technische Punkte
- Das System extrahiert automatisch akustische Latenzen aus den Audiodaten.
- Tone Mapping durch vergleichende Lerntechniken
- Verbessern Sie die Tonwiedergabe mit Konfrontationstraining
caveat
- Der Referenzton sollte repräsentative Merkmale der Zielklangfarbe enthalten
- Hintergrundgeräusche beeinträchtigen die Klonqualität
- Für Chinesisch und Englisch müssen Sie für jede Sprache separate Audio-Referenzen erstellen.
- Das Klonen in Echtzeit wird derzeit nicht unterstützt und erfordert eine Vorverarbeitungsphase.
Diese Antwort stammt aus dem ArtikelMegaTTS3: Ein leichtgewichtiges Modell zur Synthese von chinesischer und englischer SpracheDie































