ボイス・クローニング最適化プログラム
95%以上の音の類似性を達成するためには、3つの寸法を最適化する必要がある:
- サンプルの品質WeChatの音声はバックグラウンドノイズのない5-10秒のものを選び、システムの録音機能を使ってダンプすることをお勧めします。1)BGM、2)複数人での会話、3)現在の雑音。
- パラメタリゼーションxcodec_config.jsonの高さ
hop_lengthを256に設定する。remove_silence=True特徴抽出の強化 - データ強化soxオーディオツール(コマンド)による可変速非可変ピッチ処理:
sox input.wav output.wav tempo 0.9)、トレーニングサンプルの複数のバージョンを生成する
高度な技術としては、1) テキストに韻を踏んだ記号のラベリング 2) 10msの先行ミュートの追加 3) NSF-HiFiGANをバックエンドのボコーダーとして使用。テストは、melスペクトル類似度(mel-CDTW)メトリクスと比較できます。
この答えは記事から得たものである。WeClone:WeChatのチャットログと音声を使ったデジタル・ドッペルゲンガーの育成について































