マルチモーダルなタスクのためのリソース最適化
画像+テキストのようなマルチモーダルなタスクを処理する場合、以下のようなメモリ管理ストラテジーを実装することができる:
- チャンキング技術ImageProcessorのチャンキングパラメータを使う
from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained("google/vit-base-patch16-224")
processor.feature_extractor.size = {"height":256, "width":256} - 勾配チェックポイントPyTorchのチェックポイント機構の起動
model.gradient_checkpointing_enable()
- ミックス精密トレーニングDeepSpeedによるfp16オプティマイザ
"fp16": {"enabled": "auto"}
例を挙げると、ColQwen2を使用してA4書類を処理する場合、チャンクサイズを512pxに設定すると、グラフィックメモリ要件が24GBから8GBに削減される。
この答えは記事から得たものである。Transformers: テキスト、画像、マルチモーダルタスクをサポートするオープンソースの機械学習モデリングフレームワークについて































