WeClone スピーチクローンの忠実度を向上させるには？

2025-08-25

1.6 K

ボイス・クローニング最適化プログラム

95%以上の音の類似性を達成するためには、3つの寸法を最適化する必要がある：

サンプルの品質WeChatの音声はバックグラウンドノイズのない5-10秒のものを選び、システムの録音機能を使ってダンプすることをお勧めします。1)BGM、2)複数人での会話、3)現在の雑音。
パラメタリゼーションxcodec_config.jsonの高さhop_lengthを256に設定する。remove_silence=True特徴抽出の強化
データ強化soxオーディオツール（コマンド）による可変速非可変ピッチ処理：sox input.wav output.wav tempo 0.9)、トレーニングサンプルの複数のバージョンを生成する

高度な技術としては、1) テキストに韻を踏んだ記号のラベリング 2) 10msの先行ミュートの追加 3) NSF-HiFiGANをバックエンドのボコーダーとして使用。テストは、melスペクトル類似度（mel-CDTW）メトリクスと比較できます。