Medical-RAG针对中文医疗数据特性设计了自动化处理流水线,包含三大创新模块:
智能标注系统
- 支持HTTP/GPU双模式调用LLM(如Qwen2:7b)进行批量标注
- 自动识别医疗问题所属的科室(6大分类)和问题类型(8大类别)
- 输出结构化标注结果便于后续检索过滤
领域词表构建
- 采用多线程技术处理海量医疗文本
- 集成医疗专用分词器(pkuseg)提取专业术语
- 生成压缩词表文件(vocab.pkl.gz)优化BM25检索效率
混合向量生成
- 并行生成稠密向量(通过嵌入模型)和稀疏向量(基于词表)
- 支持批量嵌入和增量更新,适应知识库动态扩展
- 自动处理文本分块和元数据关联,确保检索上下文完整性
整个流程通过annotation.py
undbuild_vocab.py
im Gesang antworteninsert_data_to_collection.py
三个脚本实现自动化,用户仅需准备原始QA数据即可完成端到端处理。
Diese Antwort stammt aus dem ArtikelMedical-RAG: Ein Retrieval-Augmented Generation Framework für die Konstruktion chinesischer medizinischer Q&AsDie