Vollständiger Arbeitsablauf zur Erstellung einer rollenbasierten Sprachbibliothek
Es gibt drei Schritte, um ein professionelles Voiceover zu erreichen:
- Erfassung von Stimmabdrücken3-5 Minuten sauberes Audiomaterial (44,1 kHz/WAV-Format) für jede Figur, mit Beispielsätzen mit unterschiedlicher Intonation
- Merkmalsextraktion: Verwendung
python extract_voiceprint.py --input role1.wav --output role1.npyBewahrung der klanglichen Merkmale - StapelverarbeitungSkripte schreiben, um Rollen automatisch mit Text zu verknüpfen, z. B.
--text "台词内容" --voiceprint role1.npy --emotion angry
Tipp für Fortgeschrittene: Analyse der Grundfrequenzkurve eines Referenztons mit Praat von--pitch_shiftFeinabstimmung der Parameter (falls unterstützt). Für wichtige Rollen empfiehlt es sich, ein spezielles Modell zu trainieren (erfordert mehr als 10 Minuten an Samples). Achten Sie darauf, die Umgebungsgeräusche unter -60 dB zu halten, um beste Klonergebnisse zu erzielen.
Diese Antwort stammt aus dem ArtikelIndexTTS: Text-to-Speech-Tool mit Unterstützung für Chinesisch-Englisch-MischungDie































