遠隔モデル管理プログラム
効率的なリモートモデル管理を実現するには、以下のような方法がある:
- ダイレクトラン:HuggingFaceのモデルID(例:Qwen/Qwen2-1.5B-Instruct)を直接指定してサービスを開始する。
- キャッシュの利用:HuggingFaceのローカルキャッシュを自動的に再利用する(デフォルトは~/.cache/huggingface/)。
- バージョン管理:モデルIDの後にブランチ番号やコミット番号(@mainなど)を追加することで、特定のバージョンをロックダウンすることができます。
- 自動発見:定期的にvllm-cli modelsを実行し、リモートモデルのリストを更新する。
- 切断:一度中断されたダウンロードを継続するには、コマンドを再実行します。
ベストプラクティスの推奨
- 本番環境では、ネットワークの変動を避けるため、モデルを展開する前にローカルにダウンロードすることをお勧めします。
- 環境変数HF_HOMEを使って、カスタム・キャッシュ・ディレクトリを指定することができる。
- 大きなモデル(>10GB)の場合は、-download-dirパラメータを追加してダウンロードパスを指定することをお勧めします。
- HF_ENDPOINT を設定することで、ネットワークが制限された環境でミラーソースのダウンロードを高速化できる。
この答えは記事から得たものである。vLLM CLI: vLLMで大規模言語モデルをデプロイするためのコマンドラインツールについて