文件体积控制策略
通过多维度参数精细控制输出:
- 基础限制::
- aufstellen
maxFileSize
(单位MB)限制单个文件大小 - ausnutzen
maxTokens
基于GPT token数自动分割文件
- aufstellen
- Filterung von Inhalten::
- konfigurieren.
selector
精确提取目标区域(如.main-content
) - passieren (eine Rechnung oder Inspektion etc.)
filterOutCssSelectors
排除页眉/页脚等无关元素 - .
simplifyHtml
移除冗余HTML标签
- konfigurieren.
- Fortgeschrittene Techniken::
- ausnutzen
resourceExclusions: ['*.jpg', '*.mp4']
排除媒体资源 - erhöhen.
postProcessing
钩子函数进行文本压缩 - 对大型站点启用
splitByDomain
按子域名分组
- ausnutzen
- Nachbereitung der Behandlung:可结合jq等工具手动分割JSON文件
Diese Antwort stammt aus dem ArtikelGPT-Crawler: Automatisches Crawlen von Website-Inhalten zur Erzeugung von Wissensdatenbank-DokumentenDie