Jan-nanoは クウェン3 Menlo Research社によって開発され、Hugging Faceプラットフォーム上でホストされている、アーキテクチャが最適化された40億パラメータの言語モデル。これは効率的なテキスト生成のために設計されており、ローカルまたは組み込み環境向けの小さなサイズと長い文脈処理能力を兼ね備えている。jan-nanoはオープンソースとしてリリースされており、開発者、研究者、企業ユーザー向けに簡単なインストールとコミュニティサポートが提供されています。
機能一覧
- スムーズで正確なテキストコンテンツを作成するための効率的なテキスト生成をサポートします。
- 外部ツールやAPIとシームレスに統合するための強力なツールコールを提供します。
- 長いコンテキストの処理に最適化されたJan-nano-128kバージョンは、128kトークンのネイティブコンテキストウィンドウをサポートします。
- ローカル展開に適しており、VRAM消費量が少なく、低リソースデバイスに適している。
- 互換性 モデル・コンテキスト・プロトコル (エムシーピー)サーバーを使用し、研究作業の効率化を図っている。
- 複数の定量化フォーマット(GGUFなど)をサポートし、さまざまなハードウェア環境に簡単に導入できる。
- 会話生成体験を最適化するために、考えないチャットテンプレートを提供する。
ヘルプの使用
設置プロセス
Jan-nanoモデルは、Hugging Faceプラットフォームからダウンロードしてローカルに配置することができます。以下は、初心者と開発者のための詳細なインストールと使用手順です:
- 環境準備
Python 3.8+とGitがシステムにインストールされていることを確認する。依存関係の衝突を避けるために仮想環境を推奨する:python -m venv jan_env source jan_env/bin/activate # Linux/Mac jan_env\Scripts\activate # Windows
- 必要なツールの設置
ハギング・フェイスの設置transformers
図書館とvllm
(効率的な推論のために):pip install transformers vllm
- ダウンロードモデル
利用するhuggingface-cli
Jan-nanoモデルをダウンロードする:huggingface-cli download Menlo/Jan-nano --local-dir ./jan-nano
GGUFの定量的バージョンが必要な場合は、バートウスキーの定量的モデルをダウンロードすることができる:
huggingface-cli download bartowski/Menlo_Jan-nano-GGUF --include "Menlo_Jan-nano-Q4_K_M.gguf" --local-dir ./jan-nano-gguf
- 運用モデル
利用するvllm
モデル・サービスを開始するには、以下のコマンドを推奨する:vllm serve Menlo/Jan-nano --host 0.0.0.0 --port 1234 --enable-auto-tool-choice --tool-call-parser hermes
Jan-nano-128kバージョンでは、追加のコンテキスト・パラメーターが必要です:
vllm serve Menlo/Jan-nano-128k --host 0.0.0.0 --port 1234 --enable-auto-tool-choice --tool-call-parser hermes --rope-scaling '{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}' --max-model-len 131072
チャットテンプレートで問題が発生した場合は、手動で非シンキングテンプレートをダウンロードすることができます:
wget https://huggingface.co/Menlo/Jan-nano/raw/main/qwen3_nonthinking.jinja
- インストールの確認
サービスを開始したら、cURLまたはPythonスクリプトでモデルをテストする:import requests response = requests.post("http://localhost:1234/v1/completions", json={ "model": "Menlo/Jan-nano", "prompt": "你好,介绍一下 Jan-nano。", "max_tokens": 100 }) print(response.json()["choices"][0]["text"])
主な機能
- テキスト生成
Jan-nanoは自然言語のテキスト生成を専門としている。ユーザーはAPIまたはコマンドラインからプロンプトを入力することができ、モデルは滑らかなテキストを返す。例えば、"AIについての記事を書く "と入力すると、モデルは明確に構造化された記事を生成します。推奨パラメータtemperature=0.7
,top-p=0.8
,top-k=20
. - ツールコール
Jan-nanoは、外部APIやデータベースとの対話に適したツールの自動呼び出しをサポートしています。ユーザーはプロンプトでツールのフォーマットを指定する必要があり、モデルはそれを解析して呼び出します。例えば、天気をチェックするためのプロンプトの単語:{ "prompt": "查询北京今日天气", "tools": [{"type": "weather_api", "endpoint": "https://api.weather.com"}] }
モデルは、ツール呼び出しの結果を含む構造化応答を返す。
- ロングコンテクスト処理 (Jan-nano-128k)
Jan-nano-128kは128kトークンまでのコンテキストの処理をサポートしており、長い文書や複数回の対話の分析に適している。ユーザーは論文全体や長い対話を入力することができ、モデルはコンテキストの一貫性を維持する。例えば、50ページの学術論文を分析する:curl -X POST http://localhost:1234/v1/completions -d '{"model": "Menlo/Jan-nano-128k", "prompt": "<论文全文>", "max_tokens": 500}'
- ローカル展開の最適化
このモデルはVRAM消費量が少なく、Q4_K_M量子化バージョンは8GB RAMデバイスに適しています。ユーザーは、異なるハードウェアに適合させるために、量子化レベル(例:Q3_K_XL、Q4_K_L)を調整することができます。
注目の機能操作
- MCPサーバーの統合
Jan-nanoは、研究シナリオ用のモデルコンテキストプロトコル(MCP)サーバーと互換性があります。ユーザーはMCPサーバーを起動し、モデルを設定する必要があります:mcp_server --model Menlo/Jan-nano --port 5678
研究タスクのリクエストはMCPクライアントを通じて送信され、モデルは自動的に関連ツールを呼び出してタスクを完了させる。
- SimpleQAベンチマーキング
Jan-nanoはSimpleQAベンチマークで良い結果を出しており、Q&Aタスクに適している。ユーザーが質問を入力すると、モデルが正確な答えを返します。例curl -X POST http://localhost:1234/v1/completions -d '{"prompt": "Python 中的 lambda 函数是什么?", "max_tokens": 200}'
ほら
- ハードウェアが最低要件を満たしていることを確認してください(8GBのビデオメモリを推奨)。
- 長いコンテキストの作業にはJan-nano-128kバージョンが必要だ。
- Hugging Faceコミュニティのディスカッションを定期的にチェックし、最新の最適化案をご確認ください。
アプリケーションシナリオ
- 学術研究
Jan-nano-128kは、長い論文や書籍を処理し、重要な情報を抽出したり、要約を生成したりすることができます。研究者は文書全体を入力することができ、モデルは文脈を分析し、複雑な質問に答えることができるため、文献レビューやデータ分析に適している。 - ローカルAIアシスタント
インターネットのない環境では、Jan-nanoは質問に答えたりテキストを生成したりするローカライズされたAIアシスタントとして使用できる。開発者はオフラインのアプリケーションに組み込むことで、インテリジェントなカスタマーサービスや文章作成支援を提供できる。 - ツールオートメーション
ツールコール機能により、Jan-nanoはデータベースへのクエリ、APIの呼び出し、レポートの生成などのタスクを自動化します。組織は、ワークフローを自動化し、効率を向上させるために使用することができます。 - 組み込みデバイスの展開
Jan-nanoは小型モデルであるため、スマートホームやロボットなどの組み込み機器に適しており、リアルタイムのテキスト生成とインタラクションを提供する。
品質保証
- Jan-nanoとJan-nano-128kの違いは何ですか?
Jan-nanoは基本バージョンで、短い文脈のタスクに適しています。Jan-nano-128kは128kトークンのネイティブ文脈ウィンドウをサポートし、長い文書処理や複雑な調査タスクに適しています。 - 量子化の正しいバージョンを選ぶには?
Q4_K_Mは、性能とリソース消費のバランスが取れた8GBビデオメモリデバイスに適しています。Q3_K_XLは、軽量でローエンドデバイスに適していますが、精度が若干低下します。ハードウェア構成を参照して選択してください。 - このモデルは中国語をサポートしていますか?
そう、Qwen3アーキテクチャに基づき、Jan-nanoは中国語の生成と理解をよくサポートしており、中国語の研究やアプリケーションのシナリオに適している。 - ロングコンテキストのパフォーマンスを最適化するには?
Jan-nano-128kを使用し、以下をセットアップする。rope-scaling
パラメータを使用し、ハードウェアが大容量メモリをサポートしていることを確認する。パフォーマンスのオーバーヘッドを減らすため、頻繁なコンテキストの切り替えは避ける。