SongGen integriert eine fortschrittliche Technologie zur Kodierung von Stimmabdrücken, um die klanglichen Eigenschaften des Sprechers in nur 3 Sekunden Referenzton zu extrahieren. Die technische Umsetzung dieser Funktion besteht aus zwei Schlüsselkomponenten:
- StimmauszugExtraktion von Sprecher-Einbettungsvektoren mit dem ECAPA-TDNN-Modell
- Feature-FusionAligning acoustic features with musical content representations in latent space
In der Praxis kann der Benutzer wählen, ob die Gesangsspur im Referenz-Audio getrennt werden soll oder nicht. Wenn der Parameter "Separate" auf "True" gesetzt ist, führt das System zunächst die Quellentrennung durch, um die Reinheit der geklonten Gesangsmerkmale zu gewährleisten.
Diese Technologie ermöglicht es den Nutzern, das erzeugte Lied mit ihrer Lieblingsstimme zu singen, was die Personalisierung der Kreation erheblich verbessert.
Diese Antwort stammt aus dem ArtikelSongGen: Ein einstufiger autoregressiver Transformator für die automatische SonggenerierungDie