AIVocalの音声クローニングシステムは、移動学習と敵対的生成ネットワーク(GAN)のハイブリッドアーキテクチャに基づいており、非常に短いサンプル条件下で音声特徴の迅速なキャプチャを完了することができます。ユーザーが10-30秒の明瞭な音声サンプルをアップロードすると、システムはまずP-STOIアルゴリズムによって基本周波数や共鳴ピークなどの256次元の声紋特徴を抽出し、次に条件付きWaveRNNモデルによって同じ特徴を持つ合成音声を生成する。
技術テストによると、VCTK公開データセット上で、このシステムが83.2%の話者類似度(SVESスコア)を達成するのに必要なサンプルはわずか15秒であり、これは5分のサンプルを必要とする従来のGMM-UBM法の効果を上回る。実用的な用途としては、パーソナル・バーチャル・アシスタントの音声カスタマイズ、オーディオブックのキャラクターダビング生成、ローカライズされた商業広告の制作、その他のシナリオを実現するためにこの機能を利用することができる。
このプラットフォームは、リアルタイム音声透かし技術を採用し、プロトコル制約を使用することで、ディープフォージェリーの悪用を効果的に防いでいることが重要である。各クローン音声は、生成時に不可聴透かしが埋め込まれ、フォレンジック・シナリオで生成アカウントまで遡ることができ、この機能はEUのAI法の透明性要件に準拠している。
この答えは記事から得たものである。AIVocal:ポッドキャスト作成と音声処理のための無料AIツールについて





























