Das Sprachsynthesesystem von vdspeak nutzt die WaveNet Deep-Learning-Architektur, um das mechanische Gefühl der traditionellen Patchwork-Synthese-Technologie zu durchbrechen. Sein akustisches Modell wurde 2.000 Stunden/Sprache lang gezielt trainiert und ist in der Lage, die Ausspracheregeln und Intonationsmerkmale bestimmter Sprachen zu erfassen. Praktische Tests zeigen, dass der MOS-Score für die Natürlichkeit bei der Synchronisation von Englisch nach Chinesisch 4,2 von 5 Punkten erreicht, vor allem bei professioneller Terminologie mit einer höheren Genauigkeit als bei marktüblichen Lösungen.
Auf der Ebene der technischen Realisierung trennt das System zunächst den Stimmabdruck des Originalvideos, um Hintergrundgeräusche zu eliminieren; anschließend wird die Ähnlichkeit zwischen der synchronisierten Klangfarbe und dem Originalsprecher durch eine sprachübergreifende Sprachklontechnik aufrechterhalten. Für komplexe morphologische Sprachen wie Spanisch ist außerdem ein Aufmerksamkeitsmechanismus integriert, der die Konjugation von Verben berücksichtigt. Benutzerbeispiele zeigen, dass nach dem Einsatz der deutschen Synchronisationsfunktion in einer Bildungseinrichtung die Sehdauer in der deutschen Region um das Dreifache gestiegen ist.
Diese Antwort stammt aus dem ArtikelvdspeakDie