言語間音声合成における音色の不一致の問題を解決するには？

2025-08-23

773

背景

多言語音声合成シナリオでは、従来のモデルでは言語間で同じ音色の一貫性を維持することが困難な場合が多く、その結果、音声の聞き取りが断片的になってしまいます。CosyVoiceは、言語横断的な音声クローニング技術により、このペインポイントを特に最適化します。

ゼロサンプル生成機能の使用スルーinference_zero_shotこのモデルでは、3秒間のリファレンス・オーディオを提供するだけで、言語世代を超えて音色の特徴を維持することができます。
```
from cosyvoice import CosyVoice2
cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B')
prompt_audio = torchaudio.load('prompt.wav')[0]
cosyvoice.inference_zero_shot(text, prompt_text, prompt_audio)
```
訓練済みモデルのサポート公式に提供されたCosyVoice2-0.5Bこのモデルは、多言語コーパスで共同学習されたものである。
トーン・フリージング・テクノロジーコールadd_zero_shot_spkメソッドは音色シグネチャを保存し、それ以降の呼び出しでオーディオを再読み込みする必要がなくなります。

リファレンスオーディオが16kHzのサンプルレートであることを確認し、周囲のノイズが-60dB以下のクリアなドライサウンドを録音することを推奨します。プロフェッショナルなシーンでは、まずPraatなどのツールで音声の基本周波数特性をチェックしてください。