モデルの読み込みに失敗した場合、以下の手順でトラブルシューティングを行うことができます:
- ログを見る::
利用するvllm-cli
内蔵のログを見るか、あるいは~/.cache/vllm-cli/logs/
ログファイル - システムの互換性チェック::
うごきだすvllm-cli info
GPUドライバ、CUDAバージョン、vLLMコアパッケージの互換性を確認する - モデルの完全性の検証::
ローカルモデルの場合は、ファイルが完全であることを確認してください。 - 調整パラメーター::
削減を試みる--tensor-parallel-size
値を設定するか、定量化パラメータ--quantization awq
- 地域支援::
公式のvLLMの問題やコミュニティのディスカッションを確認するか、新しい問題を投稿して助けを求めてください!
一般的な失敗の原因としては、GPU メモリの不足、vLLM のバージョンとモデルの非互換性、ネットワーク接続の問題によるモデルの重みのダウンロードの妨げなどが挙げられます。LoRA統合の問題については、アダプターファイルが適切に設定されているかを確認することも重要です。
この答えは記事から得たものである。vLLM CLI: vLLMで大規模言語モデルをデプロイするためのコマンドラインツールについて