Hibikiの音声転送技術は、ディープラーニングモデルによってソース音声の韻律的特徴を捉え、インテリジェントにターゲット言語出力に適応させます。このシステムはCFG(Classifier Free Guidance)メカニズムを採用しており、ユーザーは-cfg-coefパラメータ(推奨値3)を使って音声の類似度を調整することができます。技術的な実装には3つの重要な革新が含まれています:
- 注意に基づく音響特徴移動ネットワーク
- 自然な音色を出すためのカウンタートレーニング
- 韻のデカップリング技術は言語学的特徴と音韻学的特徴を分離する
ひびきの出力音声は、従来の翻訳システムの機械化された合成音声と比較して、原音声のリズムやアクセントなどの分節以上の特徴を維持し、MOSの自然さスコアが37%向上しています。 この特徴は、映画やテレビの吹き替え、音声SNSなど、音声品質に敏感なシーンに特に適しています。
この答えは記事から得たものである。Hibiki:リアルタイム音声翻訳モデル、元の音声の特徴を保持したストリーミング翻訳について































