解决RAG上下文冗余的过滤技术
Ragas的context_relevancy指标专门用于衡量信噪比:
- Problem diagnosis:通过计算必要句子占比识别冗余程度,得分为0表示完全无关,1表示完全相关
- Solution:
- 检索阶段:添加相似度阈值过滤(建议保留cosine>0.7的段落)
- 预处理:应用文本摘要技术压缩上下文
- 后处理:使用Ragas识别关键句作为生成约束
- 实施工具:
- 配置ragas.metrics.context_relevancy评估
- 结合agr_score分析句子必要性
- 基于overlap_scores优化检索结果
该方法在文章的技术实现部分有详细说明,可有效提升20%以上的上下文利用率。
This answer comes from the articleRagas: assessing RAG recall QA accuracy and answer correlationThe