技术文档助手构建指南
分阶段实施方案:
- 爬取阶段:
- 配置
url
指向文档首页(如https://example.com/docs
) - 设置
match
模式匹配所有文档路径(**/docs/**
) - 使用
.doc-content
类选择器精准提取正文
- 配置
- 增强处理:
- 添加
metadata
字段标注产品版本和文档类型 - 通过
transformContent
函数标准化代码示例格式 - 利用
excludeDirs
跳过过时的版本文档
- 添加
- 部署方案:
- 直接上传至OpenAI创建GPTs技术客服
- 通过Assistants API构建文档查询接口
- 结合LlamaIndex等框架搭建本地知识库
- 维护机制:建立定期爬取任务,通过Git Hook实现文档更新自动触发
本答案来源于文章《GPT-Crawler:自动爬取网站内容生成知识库文件》