知识库构建全流程
- Vorverarbeitung der Daten:将PDF/Word文档转为JSON格式(每条目含entity和description字段)
- 向量化转换: Lauf
generate_kb_embeddings.py
脚本,可选择OpenAI或MiniLM等嵌入模型 - 模型增强: durch
integrate.py
将*.npy向量文件注入Llama等基础模型 - dynamische Aktualisierung (Internet):修改源JSON后重新生成向量,执行增量集成(无需全量重训练)
关键参数配置
- 嵌入维度:默认768维(需与基础模型隐藏层对齐)
- 批处理大小:显存不足时可调低–B参数
- 相似度阈值:控制知识被激活的严格程度(通过–threshold调节)
bestes Verfahren
建议先对文档进行Physikalische Extraktionim Gesang antworten去重处理,微软官方示例显示结构化知识库可使问答准确率提升42%。对于中文文档,需额外配置分词工具。
Diese Antwort stammt aus dem ArtikelKBLaM: Ein erweitertes Open-Source-Tool zur Einbettung von externem Wissen in große ModelleDie