AIVocalの音声合成システムは、国連の6つの作業言語と、中国語(広東語を含む)、英語(12の地域バリエーション)、スペイン語(ヨーロッパ/ラテンアメリカ版)を含む18の地域の主流言語をカバーしています。その音色ライブラリはレイヤーデザインを採用しています。基本レイヤーには200の言語横断的なユニバーサル音色(VITSモデルに基づく)が含まれ、プロフェッショナルレイヤーは放送、ナレーション、インタビューなどのための600以上のシナリオベースの音色に細分化され、カスタマイズレイヤーは方言コーパスで訓練された100以上の特徴的な話者を提供します。
技術アーキテクチャの面では、このプラットフォームは言語に依存しない音響モデル設計を採用し、隠れ層のパラメータを共有することで言語横断的な音声合成を実現しています。Common Voiceテストセットでは、自然度MOSは中国語で4.21ポイント(5段階評価)、英語で4.35ポイントに達し、業界平均の151 TP3Tを上回りました。 ユーザーは言語と音調を自由に組み合わせることができ、例えばドイツ語コピーライター+中国語アナウンサーのバイリンガル出力を選択するなど、この柔軟性は特に適しています:
- 多国籍企業は統一ブランド・ボイスの現地語版を作成する
- 教育機関による多言語教材の開発
- セルフパブリッシングのクリエイターが海外市場向けにコンテンツを拡大
このプラットフォームは、音声が最新のものであることを保証するために、移行学習を通じて方言や新しい表現を定期的に更新している。
この答えは記事から得たものである。AIVocal:ポッドキャスト作成と音声処理のための無料AIツールについて