文件体积控制策略
通过多维度参数精细控制输出:
- 基础限制::
- configurar
maxFileSize
(单位MB)限制单个文件大小 - fazer uso de
maxTokens
基于GPT token数自动分割文件
- configurar
- Filtragem de conteúdo::
- configurar
selector
精确提取目标区域(如.main-content
) - aprovar (um projeto de lei ou inspeção etc.)
filterOutCssSelectors
排除页眉/页脚等无关元素 - começar a usar
simplifyHtml
移除冗余HTML标签
- configurar
- Técnicas avançadas::
- fazer uso de
resourceExclusions: ['*.jpg', '*.mp4']
排除媒体资源 - aumentar
postProcessing
钩子函数进行文本压缩 - 对大型站点启用
splitByDomain
按子域名分组
- fazer uso de
- Tratamento de acompanhamento:可结合jq等工具手动分割JSON文件
Essa resposta foi extraída do artigoGPT-Crawler: rastreamento automático do conteúdo do site para gerar documentos da base de conhecimentoO