使用dsRAG需要完成以下四个关键步骤:
环境准备
- 通过
pip install dsrag
安装Python包 - 准备API密钥(如OpenAI/Cohere)并设置为环境变量
文档导入
from dsrag.create_kb import create_kb_from_file file_path = "your_document.pdf" kb = create_kb_from_file("custom_kb", file_path)
系统支持PDF/Markdown等格式,自动完成解析、分块和向量化。
查询执行
from dsrag.knowledge_base import KnowledgeBase kb = KnowledgeBase("custom_kb") results = kb.query(["您的查询问题"])
自定义配置(可选)
高级用户可替换默认组件:
- 向量数据库:Weaviate/Chroma等
- 嵌入模型:CohereEmbedding等
- 重排序器:VoyageReranker等
系统自动持久化所有配置到磁盘,后续使用无需重复处理文档。
本答案来源于文章《dsRAG:用于处理非结构化数据和复杂查询的检索引擎》