低グラフィックメモリデバイス展開へのコアアプローチ
8GBビデオメモリー用に最適化されたJan-nanoは、以下のソリューションを提供します:
- GGUFの定量化バージョンを使うQ4_K_M 量子化レベルは、8GBのデバイスでパフォーマンスとリソース使用量の最適なバランスを提供します。Hugging Face経由でコマンドをダウンロードします:
huggingface-cli download bartowski/Menlo_Jan-nano-GGUF --include "Menlo_Jan-nano-Q4_K_M.gguf" - 推論パラメータの調整起動時の最大トークン数を制限する。
--max-model-len 4096を減らすなど)、必要でない機能をオフにする。tool-call-parser(連結数) - チャンキング戦略の採用長いテキストのタスクの場合、APIを通じてテキストの断片を一括して送信し、最後に結果をスプライスする。
代替案としては、Q3_K_XLの軽量バージョンを選択する(約5%の性能低下を許容することを条件とする)か、CPU+RAMモードで実行する(CPU+RAMモードの設定を条件とする)がある。pip install llama-cpp-python)
この答えは記事から得たものである。Jan-nano:軽量で効率的なテキスト生成モデルについて































