方言音声合成の技術的実践
CosyVoiceはマルチタスク学習フレームワークによって方言音声合成を実装しており、その300M-SFTモデルは3つの主要技術を駆使して四川や広東語などの方言に特化して最適化されている:
- 音素展開95%の調音特徴をカバーする方言別音素ライブラリ
- リズミック・モデリングLSTMに基づく方言イントネーション予測器
- データ強化方言-北京語パラレルコーパス10万時間
この例では、開発者は「この文章を四川語で言ってください」というコマンドを渡すだけで、システムは自動的に方言モードに切り替わる。テストによると、四川方言合成の自然度MOSは4.8ポイントに達し、音素の精度は921 TP3 Tであった。この技術は、従来の方言録音ソリューションより851 TP3 T低いコストで、ローカライズされたナビゲーション・プロンプトを生成するために使用された。
この答えは記事から得たものである。CosyVoice:アリ・オープンソース多言語クローン作成ツールについて