ハードウェア要件の詳細
公式ドキュメントによると、LatentSyncのハードウェア要件は以下のように分類されている。推論歌で応える電車つのシナリオがある:
基本的な推論構成
- ディスプレイカード6.8GB以上のビデオメモリを搭載したNVIDIAグラフィックスカード(CUDAサポートが必要)(例:RTX 3060)
- システムLinuxまたはWindows(Windowsは手動でスクリプトを調整する必要があります。)
- ソフトウェア環境: Python 3.10 + Git + PyTorch (CUDAサポート)
高度なトレーニングの設定
- 推奨グラフィックスカードRTX 3090(24GB)以上
- 必要VGAメモリ::
- stage1.yaml 構成: 23GB
- stage2_efficient.yaml 構成: 20GB (最高のコストパフォーマンス)
- 完全なstage2.yaml: 30GB (プロユーザー)
- 収納スペースモデルとトレーニングデータを保存するための10GB以上のスペース。
*注:実際の要件は、ビデオ解像度(デフォルト256×256)と処理時間によって異なります。
この答えは記事から得たものである。LatentSync: 音声から直接リップシンクされたビデオを生成するオープンソースツールについて