RAGLight 支持两种主要数据源:
- 本地文件夹:可导入 PDF、文本文件等格式的文档。配置时需使用
FolderSource
指定文件夹路径,例如FolderSource(path="/path/to/your/folder/knowledge_base")
。 - GitHub 仓库:支持从公开仓库提取文档。配置时需使用
GitHubSource
并提供仓库 URL,例如GitHubSource(url="https://github.com/Bessouat40/RAGLight")
。
用户可在初始化 RAG 管道时将这些数据源添加到 knowledge_base
列表中,RAGLight 会自动处理文档并生成向量存储。
本答案来源于文章《RAGLight:轻量级检索增强生成Python库》