精度提升策略
Medical-RAG通过多层优化实现高精度检索:
- 分词优化:采用pkuseg医疗领域分词器处理查询语句,准确识别”冠状动脉粥样硬化”等专业术语
- 混合检索:可同时配置多个嵌入模型(如bge-m3)和BM25算法,通过加权融合互补优势
# 配置文件示例(search_answer.yaml) retrieval: dense_weight: 0.6 # 语义检索权重 sparse_weight: 0.4 # 关键词检索权重
- 动态过滤:支持按科室分类(如dept_pk=3代表外科)缩小检索范围
调优方法
- 词表扩充:在vocab.pkl.gz中添加领域专业词汇
- 权重调整:根据测试集效果调整不同检索通道的融合比例
- 反馈学习:将误检案例加入负样本重新训练嵌入模型
本答案来源于文章《Medical-RAG:一个用于构建中文医疗问答的检索增强生成框架》