Die Sprachtransfertechnologie von Hibiki erfasst die prosodischen Merkmale der Ausgangssprache mit Hilfe von Deep-Learning-Modellen und passt sie auf intelligente Weise an die Zielsprachausgabe an. Das System verwendet den Mechanismus Classifier Free Guidance (CFG), der es dem Benutzer ermöglicht, die Sprachähnlichkeit über den Parameter -cfg-coef (empfohlener Wert 3) anzupassen. Die technische Implementierung enthält drei wesentliche Neuerungen:
- Aufmerksamkeitsbasiertes akustisches Merkmalsmigrationsnetzwerk
- Gegenschulung zur Gewährleistung der Natürlichkeit des Tons
- Die Reim-Entkopplungstechnik trennt linguistische und phonologische Merkmale
Im Vergleich zur mechanisierten synthetischen Sprache herkömmlicher Übersetzungssysteme behält die von Hibiki ausgegebene Sprache den Rhythmus, den Akzent und andere suprasegmentale Merkmale der Ausgangssprache bei, und die MOS-Natürlichkeitsbewertung verbessert sich um 37%. Diese Eigenschaft eignet sich besonders für Film- und Fernsehsynchronisationen, sprachgesteuerte soziale Netzwerke und andere Szenarien, bei denen es auf die Sprachqualität ankommt.
Diese Antwort stammt aus dem ArtikelHibiki: ein Echtzeit-Sprachübersetzungsmodell, eine Streaming-Übersetzung, die die Eigenschaften der Originalstimme bewahrtDie































