マルチLoRAローディング・ソリューション
vllm-cliを使用して複数のLoRAアダプタを同時にロードする場合は、以下の方法を推奨する:
- パラメータの組み合わせ:lora-modulesパラメータで複数のアダプターパスを "name1:path1,name2:path2″の形式で指定する。
- グラフィックスメモリのプランニング:各LoRAは約200-500MBのビデオメモリを消費するので、ロード前にvllm-cli infoで残容量を確認する。
- バージョン互換:すべてのLoRAアダプタがベースモデルのバージョンと一致していることを確認する。
- ウェイト・フュージョン:上級ユーザーであれば、-lora-extra-configパラメータでウェイト設定を渡すことができる。
操作の例:
vllm-cli serve base_model -lora-modules "adapter1:/path/lora1,adapter2:/path/lora2"
トラブルシューティング:ロードに失敗した場合、まず各 LoRA の README.md をチェックして互換性を確認し、次に各アダプタを個別にロードしてテストする。組み合わせてロードする前に、まず個々のLoRAをインタラクティブ・モードでテストすることを推奨する。
この答えは記事から得たものである。vLLM CLI: vLLMで大規模言語モデルをデプロイするためのコマンドラインツールについて