Mit der Funktion Sprachreplikation können Benutzer personalisierte KI-Stimmenmodelle mit den folgenden Implementierungsmechanismen und Betriebsanforderungen erstellen:
Technische Grundsätze
Basierend auf der Deep-Learning-Sprachsynthesetechnologie von KDDI wird durch die Analyse der von den Nutzern zur Verfügung gestellten Stimmproben und die Extraktion der Stimmmerkmale (z. B. Klangfarbe/Tonfall/Aussprachegewohnheiten usw.) schließlich eine personalisierte Stimme mit einer Ähnlichkeit von 90% oder mehr geklont.
Materialvorbereitung
- Aufgezeichneter TextErforderlich ist das Vorlesen eines von der Plattform vorgegebenen Trainingstextes (der in der Regel 100-200 Sätze umfasst).
- AudioqualitätEmpfohlen wird die Aufnahme in einer ruhigen Umgebung mit einem professionellen Mikrofon mit einer Abtastrate von ≥16kHz
- Inhaltliche AbdeckungDer Text sollte gebräuchliche Wörter, mehrstimmige Wörter und bestimmte Lautkombinationen enthalten.
Anwendungsszenario
Die geklonte Stimme kann für folgende Zwecke verwendet werden: Vorlesen von Hörbüchern, personalisierte Videovertonung, markenexklusive Sprachlogos und vieles mehr. Diese Funktion eignet sich besonders für Wissensblogger, Mitarbeiter in der Aus- und Weiterbildung und andere Benutzergruppen, die auf eine einheitliche Stimme angewiesen sind.
Es sei darauf hingewiesen, dass die Plattform aus ethischen Gründen verlangt, dass das Klonen der Stimme von der Person selbst genehmigt werden muss und dass sie den Stimmabdruck einer anderen Person nicht kopieren darf.
Diese Antwort stammt aus dem ArtikelCyberSmart: Umwandlung von Text in Sprache und Digital Human VideoDie































