Ragasのcontext_recall指標は属性分析法を採用しており、開発者は事前に注釈付きの標準解答(ground truth)を用意する必要がある。評価時には、標準解答を一文ずつ検索文脈と比較し、[帰属]または[非帰属]に分類し、最終的に帰属率をスコアとする。例えば、アインシュタインの場合、出生情報とノーベル賞は正しく帰属され、論文数と移動情報はNot Attributedとされた。
このアプローチでは、手作業によるラベリングコストがかかるが、検索システムの情報カバー能力を正確に評価することができる。そのユニークな価値は、「正しいがソースのない」生成コンテンツを識別する能力にあり、これは学術や医療などの厳格なシナリオにおいて特に重要である。実装面では、このメトリクスはLLMのきめ細かい意味理解能力に依存しており、評価プロセスには詳細な帰属推論指示が含まれている。
アノテーションの品質を保証するために開発者によって使用されるこの指標は、高い再現性が要求される専門分野におけるRAGシステムの評価に特に適しており、検索の包括性を検証するためのゴールドスタンダードである。
この答えは記事から得たものである。ラガス:RAGリコールQA精度と回答の相関性を評価するについて































