AI対話システムにおける文書検索のためのトークンエコノミーを最適化するには？

2025-08-25

318

直接リンクモバイルビュー

痛みの分析

従来の文書検索では、文書の全内容が返されるため、LLMのコンテキストウィンドウが非効率的に占有されます。DiffMemは、3つのレベルの最適化戦略によりこの問題を解決します：

現状の焦点デフォルトでは、Markdownファイルの最新バージョンのみがインデックスされ、過去のバージョンがトークンを占有するのを防ぎます。
デプスグレーディングコントロール::
1. depth="basic": エンティティ関係グラフのコアノードを返す（～50～100トークン）
2. depth="wide"2次アソシエーション・エンティティ（～200～300トークン）を含む。
3. depth="deep"セマンティック検索をトリガーに全コンテンツを返す
BM25 ダイナミック・クロッピング長い文書に対して、最も関連性の高い3つの段落を自動的に抽出します。

# 获取精简上下文
context = memory.get_context("用户查询", depth="basic")
# 与LLM交互时组合提示词
prompt = f"基于以下上下文：{context}n回答：{query}"

テストでは、従来の方法との比較が示された：
- ベースクエリは68%トークン消費を節約
- 応答待ち時間短縮 40%
- 22%回答精度の向上（ノイズ低減による）