最高の楽曲変換結果を得るためには、以下の点に注意する必要がある:
予備
- 背景ノイズのないクリーンなリファレンス音声の選択(歌手サンプル)
- 良質な音質で録音されていること(16bit/44kHz以上を推奨)
パラメタリゼーション
- 使い始める
f0-conditionオリジナルのピッチシグネチャーを保持するオプション - ディフュージョン・ステップを30~50に設定すると、より繊細な音質になる。
- 利用する
seed-uvit-whisper-baseモデリング(200Mパラメータ)処理ボーカル
高度なテクニック
- 音程の悪い録音を可能にする
auto-f0-adjust自動音声補正 - とおす
semi-tone-shift歌手の音域に合わせてピッチを微調整可能 - コーラス・プロセッシングは、別個のボイスに変換して合成することができる。
デフォルトでは44kHzがダウンロードされます。seed-uvit-whisper-base曲の変換には圧倒的に最適な選択である。
この答えは記事から得たものである。Seed-VC:少ないサンプル数で音声と歌のリアルタイム変換に対応について































