限られたGPUリソースでVLM-R1モデルを効率的に実行するには？

2025-09-05

1.8 K

低資源環境における実施プログラムの最適化

VLM-R1は、限られたビデオメモリしか使用できない開発環境向けに、さまざまなリソース最適化ソリューションを提供します：

メモリー節約技術::
- Flash Attentionの最適化を有効にする（setup.shで自動的に設定済み）
- ディープスピードのZero-3最適化戦略（local_scripts/zero3.json）の使用
主要パラメータの調整::
1. num_generationsをデフォルトの8から2-4に減らす。
2. per_device_train_batch_size=1とし、-gradient_accumulation_steps=4とする。
3. bf16を有効にすると、fp32に比べて約30%のメモリを節約できる。
オルタナティブ::
- Colab ProによるT4 GPUランタイム
- Qwen2.5-VLモデルの知識抽出
- タスクに特化した微調整のために、モデルの一部のレイヤーのみをロードする。

src/eval/test_rec_r1.pyの-half_precisionパラメータは、メモリフットプリントをさらに削減するためにテスト段階で使用することができます。