背景
多言語音声合成シナリオでは、従来のモデルでは言語間で同じ音色の一貫性を維持することが困難な場合が多く、その結果、音声の聞き取りが断片的になってしまいます。CosyVoiceは、言語横断的な音声クローニング技術により、このペインポイントを特に最適化します。
コアソリューション
- ゼロサンプル生成機能の使用スルー
inference_zero_shotこのモデルでは、3秒間のリファレンス・オーディオを提供するだけで、言語世代を超えて音色の特徴を維持することができます。from cosyvoice import CosyVoice2 cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B') prompt_audio = torchaudio.load('prompt.wav')[0] cosyvoice.inference_zero_shot(text, prompt_text, prompt_audio) - 訓練済みモデルのサポート公式に提供された
CosyVoice2-0.5Bこのモデルは、多言語コーパスで共同学習されたものである。 - トーン・フリージング・テクノロジーコール
add_zero_shot_spkメソッドは音色シグネチャを保存し、それ以降の呼び出しでオーディオを再読み込みする必要がなくなります。
ほら
リファレンスオーディオが16kHzのサンプルレートであることを確認し、周囲のノイズが-60dB以下のクリアなドライサウンドを録音することを推奨します。プロフェッショナルなシーンでは、まずPraatなどのツールで音声の基本周波数特性をチェックしてください。
この答えは記事から得たものである。CosyVoice:アリ・オープンソース多言語クローン作成ツールについて































