文件体积控制策略
通过多维度参数精细控制输出:
- 基础限制::
- セットアップ
maxFileSize
(单位MB)限制单个文件大小 - 利用する
maxTokens
基于GPT token数自动分割文件
- セットアップ
- コンテンツ・フィルタリング::
- コンフィグ
selector
精确提取目标区域(如.main-content
) - とおす
filterOutCssSelectors
排除页眉/页脚等无关元素 - 使い始める
simplifyHtml
移除冗余HTML标签
- コンフィグ
- 高度なテクニック::
- 利用する
resourceExclusions: ['*.jpg', '*.mp4']
排除媒体资源 - 増加
postProcessing
钩子函数进行文本压缩 - 对大型站点启用
splitByDomain
按子域名分组
- 利用する
- フォローアップ治療:可结合jq等工具手动分割JSON文件
この答えは記事から得たものである。GPT-Crawler: ウェブサイトコンテンツを自動的にクロールして知識ベースドキュメントを生成について