Ragas的faithfulness指标采用两阶段评估法精确量化生成答案的事实准确性。第一阶段使用LLM从答案中提取所有可验证的陈述条目,例如对于问题’爱因斯坦是谁’的答案会被分解为’出生于德国’、’以相对论闻名’等原子化事实。第二阶段将这些陈述与检索上下文进行自然语言推理,计算被上下文支持的陈述比例。
该方法解决了传统评估难以检测幻觉内容的问题。在膳食分析的示例中,系统正确识别出6个陈述中有5个被上下文支持,最终得分为0.83。该指标特别依赖LLM的语义理解能力,目前基于GPT-4等先进模型的评估效果较为可靠,但需注意不同语言环境下的评估一致性。
开发者使用时可以通过调整prompt工程优化陈述提取质量,该指标对提升RAG系统的可信度具有显著指导价值,是确保生成内容忠于检索材料的关键保障。
この答えは記事から得たものである。ラガス:RAGリコールQA精度と回答の相関性を評価するについて