Multimodales Sprachsynthesesystem
KrillinAI integriert eine fortschrittliche Sprachsynthesetechnologie und bietet drei Voiceover-Modi: voreingestellte Sprachbibliotheken, große modellgenerierte Sprache und das Klonen von Stimmen. Die Funktion zum Klonen von Stimmen verwendet eine hierarchische Merkmalsextraktionstechnologie:
- Grundlegende Klangfarbenschicht: Physikalische Merkmale wie Tonhöhe und Resonanzspitzen werden durch Meier-Spektralanalyse extrahiert
- Ebene der rhythmischen Merkmale: Erfassung von rhythmischen Mustern, wie z. B. die Pausengewohnheiten des Sprechers, Änderungen der Sprechgeschwindigkeit usw.
- Emotionale Ausdrucksebene: Analyse des Spektrums der Intonationsschwankungen, um die emotionalen Eigenschaften der Originalstimme zu reproduzieren
Das System benötigt ein 10-30 Sekunden langes sauberes Sprachsample, das von einem Feature-Encoder in einen 128-dimensionalen akustischen Fingerabdruck umgewandelt wird. Während der Synthesephase leiten diese Merkmalsparameter das akustische Modell zur Anpassung der Ausgabe, um sicherzustellen, dass die geklonte Stimme eine Ähnlichkeit von 80% oder mehr mit dem Originalmuster aufweist. In der technischen Dokumentation wird ausdrücklich darauf hingewiesen, dass bei Verwendung des AliCloud-Sprachdienstes der Kloneffekt weiter verbessert werden kann, da das Cloud-Modell über eine größere Parameterskala und ein feineres Emotionskontrollmodul verfügt.
Diese Funktion eignet sich besonders für kreative Szenarien, in denen Markenkunden ihren Voiceover-Stil standardisieren müssen oder Hörbuchautoren die Konsistenz der Charakterstimmen wahren wollen.
Diese Antwort stammt aus dem ArtikelKrillinAIDie