リアルタイム変換の待ち時間を短縮する主な方法
ライブ放送シナリオにおけるリアルタイム性能の高い要求に対応するために、以下の3段階の最適化スキームを採用することができる:
- ハードウェア構成の最適化::
NVIDIA RTX 3060以上のGPUを使用することを推奨します。このGPUは、レイテンシを実測で430ミリ秒以内に制御することができます。CPUで実行する場合は、マルチコアプロセッサ(i7/i9など)を選択し、他のリソースを占有するプログラムを閉じることをお勧めします。 - パラメーター調整戦略::
1.real-time-gui.pyインターフェイスでDiffusion Stepsを4-10に設定する。
2.ブロックタイムを0.18秒に設定する
3.fp16 半精度計算を有効にする(-fp16 True パラメータを追加)。 - システムレベルの最適化::
1.VB-CABLEで仮想オーディオチャンネルを作成し、物理デバイスのレイテンシーを低減
2.NVIDIAコントロールパネルで電源モードを「最大パフォーマンス」に設定する。
3.デフォルトのサウンドカードドライバーの代わりにASIO低レイテンシーオーディオドライバーを使用する。
これでもまだ要求を満たせない場合は、専用モデルseed-uvit-tat-xlsr-tiny(25Mパラメータ)に切り替えると、ベースモデルよりさらに~30%レイテンシが短縮される。
この答えは記事から得たものである。Seed-VC:少ないサンプル数で音声と歌のリアルタイム変換に対応について































