Vollständiger Prozess für das Klonen von Kurzzeit-Audio
Das Herzstück des Llasa-3B ist das Klonen von Kurzzeit-Audio:
- xcodec2 MerkmalsextraktionKodierung von 15 Sekunden Audio in eine 384-dimensionale Vektorsequenz (erfordert eine Abtastrate von 16kHz)
- Präfix-Bootstrap-GenerierungKonvertierung des Merkmalsvektors in ein formatiertes Token-Präfix (
<|s_[id]|>), eingefügt in die generierte Eingabeaufforderung - End-to-End-KonvertierungDas Modell lernt automatisch Vokalmerkmale auf der Grundlage dieses Präfixes, um die tonale Konsistenz zu erhalten.
Wichtige Überlegungen: 1) Der Originalton muss klar und frei von Hintergrundgeräuschen sein; 2) verwenden Sie die.unsqueeze(0).unsqueeze(0)3) die Kloneffekte können durch die Einstellung des Parameters "Klonen" angepasst werden.top_p=1Optimierung der Parameter.
Diese Antwort stammt aus dem ArtikelLlasa 1~8B: ein quelloffenes Text-zu-Sprache-Modell für hochwertige Spracherzeugung und KlonenDie































