長文文書処理の完全なソリューション
これは、ハードウェアのコンフィギュレーションとパラメーターのチューニングによって達成される必要がある:
- 128Kバージョンに変更: Jan-nano-128kは128kトークンのコンテキストウィンドウをネイティブにサポートし、起動時にキー引数が追加されます:
--rope-scaling '{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}' --max-model-len 131072 - 入力フォーマットの改善XML/JSONマークアップ・セグメンテーションを使用する。
<section>...</section>) を使って、モデルが文書の構造を認識できるようにする。 - メモリ最適化のヒント余計なプロセスをシャットダウンし、スワップ領域をモデルの1.5倍以上確保する。
非常に長い文書(本など)の場合、次のことをお勧めします。LlamaIndexなどでベクトルインデックスを作成し、各章でそれを処理する。
この答えは記事から得たものである。Jan-nano:軽量で効率的なテキスト生成モデルについて































