dsRAGは以下のような方法論により、検索効果の画期的な向上を実現している:
1.セマンティック・セグメンテーション
LLMは文書の意味構造を分析し、長いコンテンツを論理的な段落に分割します。例えば、法律上の契約を扱う場合、このシステムは「定義条項」や「義務条項」といった構造的な単位を識別し、その後の検索で該当箇所をピンポイントで特定することができる。
2.コンテキストの自動生成
以下の要素を含む各テキストブロックのメタデータを動的に生成する:
- 文書のタイトルとセクションパス
- 前後の段落の要約
- フィールド・キーワードのタグ付け
この強化された埋め込みにより、文脈上の関連性を理解する類似性検索が可能になる。
3.関連セグメントの抽出
クエリーは2段階で処理される:
- 最も関連性の高いテキストセグメントを最初に取得
- そして、意味的に関連する近隣の段落を自動的に見つける。
この適応的な拡張により、最終的に返される結果は焦点の定まった、完全な文脈を持つものとなる。実験によると、この方法によって長文クイズの精度が411 TP3T向上した。
この答えは記事から得たものである。dsRAG: 非構造化データと複雑なクエリのための検索エンジンについて































