WeCloneのボイスクローン機能は何が必要ですか？何が実現できますか？

2025-08-25

1.5 K

WeCloneの音声クローン機能は、0.5Bのパラメータを持つ音響モデルに基づいて実装されており、特定の要件と効果があります：

ハードウェア要件CUDA対応GPUが必要で、6GB以上のビデオメモリを推奨。
入力要件WeChatのボイスメッセージを最低5秒以上（典型的な声のトーンで、バックグラウンドノイズの少ないサンプルを選択することをお勧めします。）
実現生成された音声と元のサンプルのスペクトルの類似度は95%に達し、元の音声のイントネーションの高低や感情の特徴を保っています。
使用プロセス: WeClone-audioフォルダに音声ファイルを入れる → xcodecの依存関係をインストールする → 音声クローンスクリプトを実行する

テクニカルノート：この機能は、最新のベクトル量子化技術を使用し、従来のTTSと比較して階調のディテールをよりよく捉えます。実際のテストによると、10秒間のサンプルのクローニング効果は、プロのコマーシャル番組のレベルに近いことが示されています。

クイック照会ステーションAIツール