文件体积控制策略
通过多维度参数精细控制输出:
- 基础限制:
- 设置
maxFileSize
(单位MB)限制单个文件大小 - 使用
maxTokens
基于GPT token数自动分割文件
- 设置
- 内容过滤:
- 配置
selector
精确提取目标区域(如.main-content
) - 通过
filterOutCssSelectors
排除页眉/页脚等无关元素 - 启用
simplifyHtml
移除冗余HTML标签
- 配置
- 高级技巧:
- 使用
resourceExclusions: ['*.jpg', '*.mp4']
排除媒体资源 - 添加
postProcessing
钩子函数进行文本压缩 - 对大型站点启用
splitByDomain
按子域名分组
- 使用
- 后续处理:可结合jq等工具手动分割JSON文件
本答案来源于文章《GPT-Crawler:自动爬取网站内容生成知识库文件》