Ragas的answer_relevancy指标通过逆向思维解决答案相关性评估难题。该方法首先生成答案对应的可能问题集合,例如对于PSLV-C56火箭发射日期的回答,系统会反推出’发射时间和地点是什么’等问题。然后使用text-embedding-ada-002等先进embedding模型计算生成问题与实际问题的余弦相似度。
在膳食分析案例中,系统生成的三个反推问题与原始问题相似度均超过0.83,最终得分为0.835,表明答案具有高度针对性。这种评估方式的优势在于建立了问题-答案的双向验证机制,比单向相关性判断更可靠。
该指标特别适合评估开放域QA系统,能有效识别答非所问的情况。开发者可以通过优化反推问题的生成质量(如控制问题数量与多样性)来提升评估精度,是改善RAG系统对话质量的重要工具。
この答えは記事から得たものである。ラガス:RAGリコールQA精度と回答の相関性を評価するについて