長文文書処理メモリ最適化ガイド
128Kコンテキストのメモリ消費は、以下の方法で大幅に削減できる:
- コンテキスト・キャッシュの有効化同じ内容の二重カウントを避ける。
cache_context=True
パラメーターmodel.chat(tokenizer, '总结上一段的核心观点', cache_context=True)
- セグメンテーション技術非常に長い文書にはスライディング・ウィンドウ・ポリシーを使用する:
- PyMuPDFでPDFを章ごとに分割 (段落ごとに≤32Kトークン)
- 利用する
yarn
エクステンション技術は段落間のつながりを維持する - モデル統合分析結果の最終要請
- ハードウェアレベルの最適化::
- vLLM推論エンジンを使用した動的バッチ処理のサポート
- アテンション・コンピューティングを加速するFlashAttention-2
- コンフィグ
--limit-mm-per-prompt '{"text":64}'
メモリスパイクを抑える
テストケース:100ページの法的契約書を処理する場合、セグメンテーション戦略により、メモリ消費量を48GBから22GBに削減することができます。GLM-4.5-Air + INT4の定量化の組み合わせをお勧めします。これにより、16GBのビデオメモリデバイスで100万語の文書の分析を完了することができます。
この答えは記事から得たものである。GLM-4.5: 知的推論とコード生成をサポートするオープンソースのマルチモーダル大規模モデルについて