ローカル展開の完全ガイド
Jan-nanoは、4つの重要なステップに分かれた標準化された現地展開プロセスを提供します:
- 環境準備Python 3.8+とGit環境が必要、隔離された仮想環境を推奨 (venv)
- 依存するインストール最適な推論パフォーマンスを得るために、トランスフォーマーとvLLMライブラリをpip経由でインストールします!
- モデルダウンロードHuggingface-cliツールを使って、公式モデルやサードパーティ製の定量化されたバージョン(例えばbartowskiのGGUFフォーマット)を入手する。
- サービス・アクティベーションvLLMエンジンの始動は慎重に:
- 基本バージョンでは、標準的なパラメータを使用します。
--enable-auto-tool-choice - 128kバージョンは設定が必要
--rope-scalingパラメータは拡張コンテキストをサポート
- 基本バージョンでは、標準的なパラメータを使用します。
典型的な配備例:vllm serve Menlo/Jan-nano --port 1234 --enable-auto-tool-choice
検証テストは、デプロイ後にREST APIまたはPythonリクエストライブラリ経由で実行できます。特記事項:ビデオメモリのサイズに応じて適切な量子化レベルを選択する必要があり、Q4_K_Mバージョンは8GBのデバイスに推奨されます。
この答えは記事から得たものである。Jan-nano:軽量で効率的なテキスト生成モデルについて































