ハードウェア構成の技術経済分析
DiffPortrait360 の技術的アーキテクチャには、明確なハードウェア要件があります。30GB のビデオメモリを搭載した NVIDIA GPU(例:RTX 3090)、および 80GB のビデオメモリを搭載したプロフェッショナルカード(例:A6000)が推奨されます。1)ControlNetには12GBのベース・ビデオ・メモリが必要、2)NeRFモデリング・プロセスには18~22GBのビデオ・メモリが必要、3)デュアル・アピアランス・モジュールのクロスアテンション・メカニズムには予約された計算バッファが必要。
実際のデータでは、32フレームの360度ビューシーケンスを生成するのに、A6000では約3.2分かかり、コンシューマー向けRTX 4090では、ビデオメモリのスワッピングにより、同じタスクに7.5分かかった。特筆すべきは、チームがCUDA 12.2用に特定の演算子を最適化したことで、CUDAバージョン11.7と比較して推論速度を191 TP3T向上させることができた。中小企業ユーザーには、クラウド・コンピューティング・ソリューションが推奨され、AWSのg5.2xlargeインスタンスが1時間あたり約1.08ドルのコストで基本的な要件を満たす。
この答えは記事から得たものである。DiffPortrait360: 1枚のポートレートから360度のヘッドビューを生成について