Ragas的context_relevancy指标创新性地采用候选句子提取技术评估检索内容的质量。该指标首先要求LLM从检索上下文中筛选出直接响应问题的最小句子集合,然后通过计算这些必要句子在全文中的占比得出信噪比分数。例如在’世界著名方程’的问题中,仅’E=mc2’的描述句被标识为必要内容。
该指标的算法实现涉及双重验证:先使用重叠分数(overlap_scores)确认提取句子的准确性,再通过语义相似度(agr_score)确保提取结果的一致性。在中文膳食分析的案例中,系统正确识别出核心定义句,最终评分反映了检索内容的聚焦程度。
该指标能有效指导检索器优化,特别适用于改善embedding模型的语义匹配能力。不过开发者需注意不同语种下语义模型的评估效果差异,必要时可替换本地化的相似度计算模型。
Diese Antwort stammt aus dem ArtikelRagas: Bewertung der RAG-Rückruf-QA-Genauigkeit und AntwortkorrelationDie