プロジェクトの技術文書によると、モデルの実行には特定のハードウェア条件を満たす必要があります。ベンチマークによると、FP16精度でモデルをロードするには6.4GBのビデオメモリが必要で、BF16モードには7.2GBが必要です。実際の展開では、Tensor CoreとBF16計算命令を確実にサポートするために、NVIDIA 30/40シリーズのグラフィックカードの使用を推奨しています。RTX3060(12GB)などの民生用グラフィックカードを使用する場合は、num_generationsパラメータを調整してメモリ使用量を制御できます。
フラッシュアテンションを有効にすることで、アテンション計算速度を3.2倍向上させることができ、Deepspeed Zero-3ステージオプティマイザを使用することで、グラフィックスメモリ消費量を40%削減することができます。リソースに制約のあるシナリオでは、LoRA微調整ソリューションを推奨しています。このソリューションでは、モデル適応を完了するのに必要なビデオメモリはわずか2GBで、精度の低下は5%以内に抑えられます。
この答えは記事から得たものである。VLM-R1:自然言語による画像ターゲットの位置決定のための視覚言語モデルについて































