vllm-cliはvLLMのコマンドラインインターフェースツールで、大規模な言語モデルのデプロイと管理をより簡単にします。このツールは、インタラクティブなメニュー・インターフェースと従来のコマンドライン・モードの両方を提供します。ローカルとリモートのモデルを管理し、事前定義またはカスタマイズされた設定シナリオを使用し、モデルサーバーの動作状態をリアルタイムで監視することができます。vllm-cliは、異なるモデルをローカルで迅速にテストしたり、モデルサービスを自動化スクリプトに統合する必要がある開発者にとって、効率的で使いやすいソリューションを提供します。vllm-cliには、システム情報のチェックとログの表示機能が組み込まれており、ユーザーが問題に遭遇したときに、すぐにその場所を特定することができます。
機能一覧
- 対話モード機能豊富な端末インターフェースを提供し、ユーザーがメニューから操作できるようにすることで、利用へのハードルを下げる。
- コマンドラインモード自動化スクリプトやワークフローに簡単に統合できるよう、コマンドラインによる直接命令をサポート。
- モデル・マネージメント:: ローカルに保存されたモデルファイルを自動的に検出し、管理する機能。
- リモート・モデル・サポートHuggingFace Hubから直接モデルをロードして実行することができます。
- コンフィギュレーション・プログラムさまざまなシナリオ(高スループット、低メモリなど)に最適化されたさまざまなコンフィギュレーションが組み込まれており、ユーザー定義のコンフィギュレーションもサポートされています。
- サーバー監視GPU の使用状況やログ情報など、vLLM サーバーのステータスをリアルタイムで確認できます。
- システム情報GPU、メモリ、CUDAの互換性をチェックし、表示します。
- ログビューアサーバーの起動に失敗した場合、ログファイルをすべて表示することで、エラーのトラブルシューティングを簡単に行うことができます。
- LoRAサポートベースモデルをロードしたまま、1つ以上のLoRAアダプタをマウントできる。
ヘルプの使用
vllm-cliは、vLLMで大規模な言語モデルをデプロイするプロセスを簡素化するために設計されています。以下に、インストールと使用方法の詳細な手順を示しますので、すぐに使い始めることができます。
1.インストール
前提条件
インストールする前に、システムが以下の条件を満たしていることを確認してください:
- Python 3.11以降。
- CUDA対応のNVIDIA GPU。
- vLLMコアパッケージがインストールされました。
PyPIからインストールする
最も簡単なインストール方法は、PyPIの公式リポジトリからpip経由でインストールする方法です:
pip install vllm-cli
ソースからのコンパイルとインストール
最新の機能を体験したい場合は、GitHubのソースからコンパイルしてインストールすることもできる。
まず、プロジェクトのリポジトリをローカルにクローンする:
git clone https://github.com/Chen-zexi/vllm-cli.git
cd vllm-cli
次に、必要な依存ライブラリをインストールする。これらの作業は、クリーンな仮想環境で行うことを推奨する。
# 安装依赖
pip install -r requirements.txt
pip install hf-model-tool
# 以开发者模式安装
pip install -e .
2.使用方法
vllm-cliは対話型インターフェースとコマンドライン命令の2つの操作モードを提供する。
対話モード
これは初心者が始めるのに最適な方法です。まずはターミナルに以下のコマンドを直接打ち込んでください:
vllm-cli
起動すると、モデル選択、コンフィギュレーション、サービス・スタートアップの全ステップを説明するメニュー・オプションが表示されたウェルカム・スクリーンが表示されます。
- モデルの選択このインターフェースはHuggingFace Hub上でローカルに発見されたモデルとリモートモデルを一覧表示します。配備するモデルを直接選択することができます。
- クイックスタート過去に一度でも起動に成功したことがある場合、この機能は自動的に前回の設定を読み込み、ワンクリックで起動できるようになります。
- カスタム設定Advanced Configurationメニューに入り、定量化方法、テンソルの並列サイズなど、数十のvLLMパラメータを調整することができます。
- サーバー監視サービスが開始されると、監視インターフェイスでGPU使用率、サーバーステータス、ログストリームをリアルタイムで確認できます。
コマンドラインモード
コマンドラインモードは、自動化スクリプトや上級ユーザーに適している。主なコマンドは以下の通り。 serve
.
基本的な使い方
デフォルト設定を使ってモデルサービスを開始する:
vllm-cli serve <MODEL_NAME>
この中には <MODEL_NAME>
はモデルの名前である。 Qwen/Qwen2-1.5B-Instruct
.
プリセットコンフィギュレーションの使用
を使用することができます。 --profile
パラメーターを使用して、組み込みの最適化コンフィギュレーションを指定します。例えば high_throughput
最大限のパフォーマンスを得るためのコンフィギュレーション:
vllm-cli serve <MODEL_NAME> --profile high_throughput
```内置的配置方案包括:
- `standard`: 智能默认值的最小化配置。
- `moe_optimized`: 为 MoE(混合专家)模型优化。
- `high_throughput`: 追求最大请求吞吐量的性能配置。
- `low_memory`: 适用于内存受限环境的配置,例如启用 FP8 量化。
**传递自定义参数**
你也可以直接在命令行中传递任意 vLLM 支持的参数。例如,同时指定 AWQ 量化和张量并行数为2:
```bash
vllm-cli serve <MODEL_NAME> --quantization awq --tensor-parallel-size 2
その他の一般的なコマンド
- 利用可能なモデルのリスト:
vllm-cli models
- システム情報の表示:
vllm-cli info
- 実行中のサービスのチェック:
vllm-cli status
- サービスの停止 (ポート番号を指定する必要があります)。
vllm-cli stop --port 8000
3.設定ファイル
vllm-cliのコンフィギュレーション・ファイルは ~/.config/vllm-cli/
真ん中だ。
config.yaml
メイン設定ファイル。user_profiles.json
:: ユーザー定義の構成スキーム。cache.json
モデルリストやシステム情報をキャッシュし、パフォーマンスを向上させます。
モデルの読み込み失敗などの問題が発生した場合、このツールはログを直接表示するオプションを提供しており、デバッグに非常に便利です。
アプリケーションシナリオ
- 現地開発とモデル評価
研究者や開発者は、複雑なサーバー展開コードを記述することなく、アルゴリズムの検証、機能テスト、性能評価のために、異なる大規模言語モデルをローカル環境に迅速に展開し、切り替えることができます。 - 自動デプロイスクリプト
コマンドラインモードを使用して、vllm-cliをCI/CDプロセスや自動化されたOpsスクリプトに統合することができます。例えば、新しいモデルがトレーニングされると、スクリプトが自動的にトリガーされ、モデルのデプロイとベンチマークを行うことができます。 - ティーチング&デモンストレーション
教育や製品のデモンストレーションのシナリオでは、インタラクティブなインターフェイスを使用して、大規模な言語モデリングサービスを簡単に起動し、基礎となる複雑な設定の詳細を気にすることなく、モデルの効果を他の人に視覚的に示すことができます。 - 軽量アプリケーション・バックエンド
いくつかの内部ツールや軽量なアプリケーションでは、vllm-cliを使用することで、小規模な呼び出しで大規模な言語モデルを推論するための安定したバックエンドを迅速に構築することができる。
品質保証
- vllm-cliはどのようなハードウェアをサポートしていますか?
現在、vllm-cliは主にCUDAでNVIDIA GPUをサポートしています。AMD GPUのサポートはまだ開発ロードマップにあります。 - モデルの読み込みに失敗した場合はどうすればよいですか?
まず、ツールが提供するログ表示機能を使って、詳細なエラーメッセージを確認します。次に、ご使用の GPU モデルと vLLM のバージョンが適合していることを確認します。最後に、vLLMの公式ドキュメントをチェックし、モデルが特定の定量化手法や信頼できるリモートコードなど、特別な起動パラメータを必要とするかどうかを確認します。 - このツールはどうやって私の地元のHuggingFaceモデルを発見したのですか?
vllm-cliにはhf-model-tool
HuggingFaceツールはHuggingFaceの補助ツールです。HuggingFaceのデフォルトキャッシュディレクトリと、ユーザーが手動で設定した他のモデルディレクトリを自動的にスキャンし、ローカルに保存されたすべてのモデルファイルを発見し管理します。 - GPUなしで使用できますか?
vllm-cliはvLLMエンジンに依存しており、vLLMエンジン自体がGPU上で大規模な言語モデルを効率的に実行するように設計されているため、CUDAをサポートするNVIDIA GPUハードウェアが必要です。