Das Stimmklon-System von AIVocal basiert auf einer hybriden Architektur aus Migrationslernen und adversen generativen Netzen (GAN), die eine schnelle Erfassung von Stimmmerkmalen unter sehr kurzen Probenbedingungen ermöglicht. Wenn ein Benutzer eine klare Stimmprobe von 10-30 Sekunden hochlädt, extrahiert das System zunächst 256-dimensionale Stimmmerkmale wie Grundfrequenz und Resonanzspitzen durch den P-STOI-Algorithmus und erzeugt dann synthetische Sprache mit denselben Merkmalen durch das bedingte WaveRNN-Modell.
Technische Tests zeigen, dass das System auf dem öffentlichen VCTK-Datensatz nur 15 Sekunden an Proben benötigt, um eine Sprecherähnlichkeit (SVES-Score) von 83,2% zu erreichen, was den Effekt der traditionellen GMM-UBM-Methode übertrifft, die 5 Minuten an Proben benötigt. In praktischen Anwendungen können die Benutzer diese Funktion für die Anpassung der Stimme eines persönlichen virtuellen Assistenten, die Synchronisierung von Hörbuchcharakteren, die Produktion lokalisierter kommerzieller Werbung und andere Szenarien nutzen.
Es ist wichtig anzumerken, dass die Plattform eine Echtzeit-Wasserzeichentechnologie für Stimmen und die Verwendung von Protokollbeschränkungen einsetzt, um den Missbrauch durch tiefe Fälschungen wirksam zu verhindern. Jede geklonte Stimme wird bei ihrer Erzeugung mit einem unhörbaren Wasserzeichen versehen, das in forensischen Szenarien bis zum erzeugenden Konto zurückverfolgt werden kann, wodurch die Funktion die Transparenzanforderungen des EU-KI-Gesetzes erfüllt.
Diese Antwort stammt aus dem ArtikelAIVocal: ein kostenloses KI-Tool zur Erstellung von Podcasts und zur AudiobearbeitungDie





























